hadoop-release

hadoop - 在 Hadoop 2.6.0 中运行自定义 Speculator

我正在编写我的自定义推测器，我查看了文档，默认情况下是“DefaultSpeculator.java”并在类“MRAppMaster.java”(函数createSpeculator())中设置在Hadoop的核心。我想知道您是否可以在执行我的工作时在运行时更新/更改投机者，因为我需要在大约5个投机者之间进行测试。谢谢!!! 最佳答案可以在集群范围或每个作业的基础上为map任务和reduce任务打开和关闭推测执行。推测器在MRAppMaster(Map-ReduceApplicationMaster)中实例化。正如您在问题中提到的

中运自定推测 code strong hadoop mapreduce bigdata

hadoop - HDFS NFS 网关 "No groups available for user"警告

我正在使用NFS网关服务将一些数据提取到HDFS(CDH5.4.5)中。一切似乎都很好，直到我收到一条警告消息，通知我日志记录目录的可用空间非常低。我快速查看了大日志文件:sudofind/var/log-typef-size+100000k-execls-lh{}\;|awk'{print$9":"$5}'...并注意到一个名为/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-[fqdn-of-name-node].log.out的34GB文件。快速浏览内部显示几乎完全由以下警告组成:2015-11-3013:41:15,535WARNorg

amp available code hadoop section hdfs nfs

hadoop - Map Reduce在eclipse中执行

谁能告诉我如何在Eclipse的参数选项卡中设置HDFS文件路径。这样下面的代码就不会给出超出索引的异常。FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1])); 最佳答案您需要使用运行配置。右键单击该程序，转到运行配置，使用java应用程序。选择正确的项目和带有main函数的正确程序后，您需要转到VMArguments并传递参数。

eclipse hadoop section 中设 stackoverflow mapreduce

hadoop - 在 Pig 中加载文件并将其转换为带分隔符的一行

我需要你的帮助来输出我在Pig中加载的文件，其中包含如下数据:AAAA,message1BBBB,message2CCCC,message3DDDD,message4我需要做的就是得到这样的输出AAAA,message1,BBBB,message2,CCCC,message3,DDDD,message4此输出我将在其他pigudf之后使用它..谢谢你的帮助最佳答案输入:AAAA,message1BBBB,message2CCCC,message3DDDD,message4pig脚本:A=LOAD'input.csv'USINGP

中加载文 message section strong hadoop apache-pig

hadoop - 无法从主机访问到cloudera WEBHDFS( guest )

我已经阅读了所有这些链接中的WebHdfslink1link2link3使用telnet检查-端口已打开在cloudera(virtualbox)中进行必要的设置以启用webhdfs直接在cloudera上进行测试:[cloudera@quickstart~]$curl-i-L"http://10.0.0.88:50070/webhdfs/v1/user/cloudera/testdir/testFile?op=OPEN"HTTP/1.1307TEMPORARY_REDIRECThttp://quickstart.cloudera:50075/webhdfs/v1/user/cloud

cloudera WEBHDFS 34 code hadoop

hadoop - 无法打开cloudera管理器

我是大数据和hadoop的新手，我制作了一个名为test的文件，其中包含helloworld内容，我想在尝试此操作时将其上传到文件浏览器中，它给了我一个错误，我试图通过在此搜索答案来解决它网站，我发现问题出在群集“clouderamanager”中，当我尝试打开它时，它给了我一条消息，强烈建议使用10个Rams，但如果你想强制打开，请使用命令force“我的电脑是6gram并且在下载系统时建议使用8gram总线我给虚拟机5.5gram并且它在使用系统时很灵活那么问题是什么以及我如何强制启动cloudera管理器？最佳答案启动终端

cloudera hadoop section 入门 bigdata data-science cloudera-manager

hadoop - Lzo 文件不会在配置单元作业中拆分

我们在s3中有3个.lzo文件和相应的.index文件。我们正在这些文件的目录上创建一个外部表。每个lzo文件的大小为100MB+，每个文件的未压缩大小为800+MBblock大小为128MB。当我们运行配置单元查询时，不幸的是只有3个映射器被生成，这表明没有发生split，可能是什么问题？最佳答案 Splittable仅在压缩文件的大小大于拆分大小时适用。Hive默认拆分大小为256MB。在Hivesession中修改拆分大小并运行查询。setmapreduce.input.fileinputformat.split.minsi

配置单 hadoop section stackoverflow amazon-web-services amazon-s3 hive lzo

hadoop - hive外部表有什么意义？

第1步。我创建了一个配置单元外部表“test”，并给出了一些位置，例如“/user/hive2”。第2步。我在“测试”表中加载一个文件。第3步。我做了一个select*fromtest。我得到了我的记录。第四步，我通过droptabletest来droptable。第5步。我确实从测试中选择*，但未找到表。那么使用externaltable有什么意义呢？如果删除了“测试”表的元数据并且我无法在其上查询任何内容，那么我们为什么要使用外部表？最佳答案 @Nishant:在本论坛中提出一般性问题之前，您应该做一些功课。无论如何，这里有一

hadoop hive section 配置单 stackoverflow mapreduce

hadoop - 无法在 Hive 上对表进行分区 - 元数据错误

我在Hive中创建了一个表，其中加载了数据。我想根据Columnspec:DoJ对其进行分区，其中值为2012我用过:ALTERTABLEemployeeADDPARTITION(year='2012')location'/home/rvarun/2012/part2012';我收到错误:FAILED:Errorinmetadata:tableisnotpartitionedbutpartitionspecexists:{year=2012}FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTa

hadoop Hive section code 2012 partition

hadoop - 在 Pig 中按两列聚合数据分组

我有这些数据，需要按两列分组，然后对其他两个字段求和。假设这四列的名称是:OS,device,view,click。我基本上想知道每个操作系统和设备的计数，它们有多少次查看以及有多少次点击。(2,3346,1,)(3,3953,1,1)(25,4840,1,1)(2,94840,1,1)(14,0526,1,1)(37,4864,1,)(2,7353,1,)这是我目前的情况Aisdata:OS,device,view,clickB=GROUPABY(OS,device);Result=FOREACHB{GENERATEgroupASOS,device,SUM(view)ASvisits

hadoop Pig device section click hive apache-pig

51 52 535455 56 57