草庐IT

hadoop-mapreduce

全部标签

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

Hadoop自带的Serialization和AVRO序列化的关系?

我试图了解Avro并了解到它是Hadoop使用的数据序列化框架之一。在学习Hadoop的过程中,我了解到Hadoop使用的是自己的Serlization框架,而不是Java的Serialization,所以可以看到Hadoop中的Writable、WritableComparable。现在,经过AVRO之后,它说Avro被用作Serlization框架。因此我有点困惑。所以,当我们说Hadoop自己的序列化框架时,我们指的是Avro还是其他东西(它内置于“hadoop”本身)。谁能帮我理解一下? 最佳答案 Hadoop可写对象不是A

hadoop - 我想知道有什么方法我只能在 MapReduce(Hadoop) 中选择每一行的最大值

我低于表示标题、月份和标题(键)和月份(键)组合的值(总和)的值。我只想在标题、月份和值中选择具有最高值的一行,例如,“Fly08(09,11)4或Go0645,正如您在我的实际输出中看到的那样。如果可能的话,请赐教。如果您有任何疑问,请告诉我,我会尽力澄清。Fly,07,1Fly,08,4Fly,09,4Fly,10,1Fly,11,4Fly,12,2GentleBen,05,2GentleBen,06,3GentleBen,07,2GentleBen,08,2GentleBen,09,2Germanaircraftgunsandcannons,11,1Go,04,20Go,05,2

由于 "Mismatch in length of source",从集群到集群的 Hadoop 复制失败

我想将数据从一个集群复制到另一个集群。我用这个命令hadoopdistcphdfs://SOURCE-NAMENODE:9000/dir/\hdfs://DESTINATION-NAMENODE:9000/我收到这条消息:18/04/1112:05:37INFOmapred.CopyMapper:Copyinghdfs://SOURCE-NAMENODE:9000/SOURCE-NAMENODE/WALs/xxxx,18560,1523039740289/xxxx%2C18560%2C1523039740289.default.1523445499108tohdfs://DESTINA

hadoop webhdfs 创建。我无法传输文件

我无法将文件传输到Hadoop。下面我添加我使用过的命令和得到的错误。命令1:curl-i-XPUT"http://myip:50070/webhdfs/v1/tmp/tempForTest.txt?user.name=hadoop&op=CREATE&overwrite=false&createparent=false&replication=1&permission=777"HTTP/1.1307TEMPORARY_REDIRECTCache-Control:no-cacheExpires:Wed,18Apr201811:53:28GMTDate:Wed,18Apr201811:5

java - Hadoop 错误 java.lang.NoSuchMethodException :- <init>() 中的自定义分区程序

我正在尝试制作一个自定义分区器,以将每个唯一键分配给单个缩减器。这是在默认的HashPartioner失败之后Alternativetothedefaulthashpartionerprovidedwithhadoop我不断收到以下错误。从我做一些研究可以看出,它与构造函数没有接收到它的参数有关。但是在这种情况下,对于hadoop,参数不是由框架自动传递的吗?我找不到代码中的错误18/04/2017:06:51INFOmapred.JobClient:TaskId:attempt_201804201340_0007_m_000000_1,Status:FAILEDjava.lang.R

hadoop - 如何从与 hbase 集成的 hive 表中获取最新版本数据?

如果我在hbase中的表有3个版本,并且我已经将ahive表集成到这个hbase表中。那么如何从配置单元表中只读取最新版本的记录呢? 最佳答案 Hbase-Hive集成表只显示记录的最新版本,我们无法从hive表中查询任何版本而不是最新版本。当我们再次将相同的rowkey写入hbase表时,Hbase会覆盖现有数据,如果rowkey不存在,则插入到表中如果你想在hbase表中查看旧版本,那么你需要在扫描命令中指定版本,我们需要创建(或)更改hbase表来存储版本。hbase(main):>create't2',{NAME=>'f2'

hadoop - 配置单元错误 : compiling statement: FAILED: ParseException line 15:0 missing EOF at 'collection' near ''\n''

我是hive的新手,我正在创建一个具有以下属性的表,CREATEEXTERNALTABLEEXTTBL_Transactions(TRANSACTION_IDvarchar(70)COMMENT'UniqueID,`PrimaryKey',DEFINITION_IDvarchar(70)COMMENT'Definition,NullAllowed',USER_IDvarchar(70)COMMENT'Contactid,ForeignKey',PURCHASE_DATETIMETimestampCOMMENT'Saveddattime,NullAllowed',PURCHASE_AMO

java - Hadoop 运行命令 java.lang.ClassNotFoundException

我已经成功安装了hadoop3.0.0独立运行在Ubuntu16.04上。我使用Apachehadoop教程中的以下代码创建了一个jar。importjava.io.IOExceptionimportjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后,当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9