HADOOP_NAMENODE_OPTS

hadoop - 消息 [JA002 : SIMPLE authentication is not enabled. 可用:[ token ]]

我在运行Oozie作业时遇到以下错误。命令:ooziejob-ooziehttp://10.xxx.xx.xx:11000/oozie/-log0000017-151029172404066-oozie-oozi-W日志:2015-11-2411:50:23,469INFOActionStartXCommand:543-SERVER[hostname.abc.com]USER[oozie]GROUP[-]TOKEN[]APP[sqoop-wf]JOB[0000017-151029172404066-oozie-oozi-W]ACTION[0000017-151029172404066-

hadoop - 在没有主键的情况下使用 pig 删除重复项

我是hadoop的新手，我有一个用例，其中有3列名称、值、时间戳。数据是,逗号分隔并且是csv格式，我需要检查重复项并使用pig删除它们。我怎样才能做到这一点。最佳答案您可以使用pigDISTINCT函数来删除重复项。请引用这个link了解DISTINCT函数。正如您所说，您的数据驻留在HIVE表中，并且您想通过pig访问这些数据，您可以使用HCatLoader()通过pig访问HIVE表。HCatalog可用于外部和内部HIVE表。但是在使用这个功能之前，请确认你的集群已经配置了HCatalog。如果您使用的是Hadoop2.

hadoop pig code section CSVLoader duplicates apache-pig

hadoop - 在 Hadoop 2.6.0 中运行自定义 Speculator

我正在编写我的自定义推测器，我查看了文档，默认情况下是“DefaultSpeculator.java”并在类“MRAppMaster.java”(函数createSpeculator())中设置在Hadoop的核心。我想知道您是否可以在执行我的工作时在运行时更新/更改投机者，因为我需要在大约5个投机者之间进行测试。谢谢!!! 最佳答案可以在集群范围或每个作业的基础上为map任务和reduce任务打开和关闭推测执行。推测器在MRAppMaster(Map-ReduceApplicationMaster)中实例化。正如您在问题中提到的

中运自定推测 code strong hadoop mapreduce bigdata

hadoop - HDFS NFS 网关 "No groups available for user"警告

我正在使用NFS网关服务将一些数据提取到HDFS(CDH5.4.5)中。一切似乎都很好，直到我收到一条警告消息，通知我日志记录目录的可用空间非常低。我快速查看了大日志文件:sudofind/var/log-typef-size+100000k-execls-lh{}\;|awk'{print$9":"$5}'...并注意到一个名为/var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-[fqdn-of-name-node].log.out的34GB文件。快速浏览内部显示几乎完全由以下警告组成:2015-11-3013:41:15,535WARNorg

amp available code hadoop section hdfs nfs

hadoop - Map Reduce在eclipse中执行

谁能告诉我如何在Eclipse的参数选项卡中设置HDFS文件路径。这样下面的代码就不会给出超出索引的异常。FileInputFormat.addInputPath(job,newPath(otherArgs[0]));FileOutputFormat.setOutputPath(job,newPath(otherArgs[1])); 最佳答案您需要使用运行配置。右键单击该程序，转到运行配置，使用java应用程序。选择正确的项目和带有main函数的正确程序后，您需要转到VMArguments并传递参数。

eclipse hadoop section 中设 stackoverflow mapreduce

java - 每次我重新启动时，我的 PC namenode 都没有启动

我正在使用VMware在Ubuntu上运行我的hadoop。hadoop的版本是2.x，我在重启电脑时遇到了问题。每次我重新启动电脑时，我都必须格式化namenode，否则会出现如下错误。Error:CallFromubuntu/127.0.1.1tolocalhost:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused.hdfs-site.xmldfs.replication1hadoop.tmp.dir/tmp/hadoopTemp核心站点.xmlfs.defaultFShdfs:/

namenode java section gt lt hadoop hdfs vmware

hadoop - 在 Pig 中加载文件并将其转换为带分隔符的一行

我需要你的帮助来输出我在Pig中加载的文件，其中包含如下数据:AAAA,message1BBBB,message2CCCC,message3DDDD,message4我需要做的就是得到这样的输出AAAA,message1,BBBB,message2,CCCC,message3,DDDD,message4此输出我将在其他pigudf之后使用它..谢谢你的帮助最佳答案输入:AAAA,message1BBBB,message2CCCC,message3DDDD,message4pig脚本:A=LOAD'input.csv'USINGP

中加载文 message section strong hadoop apache-pig

hadoop - 无法从主机访问到cloudera WEBHDFS( guest )

我已经阅读了所有这些链接中的WebHdfslink1link2link3使用telnet检查-端口已打开在cloudera(virtualbox)中进行必要的设置以启用webhdfs直接在cloudera上进行测试:[cloudera@quickstart~]$curl-i-L"http://10.0.0.88:50070/webhdfs/v1/user/cloudera/testdir/testFile?op=OPEN"HTTP/1.1307TEMPORARY_REDIRECThttp://quickstart.cloudera:50075/webhdfs/v1/user/cloud

cloudera WEBHDFS 34 code hadoop

hadoop - 无法打开cloudera管理器

我是大数据和hadoop的新手，我制作了一个名为test的文件，其中包含helloworld内容，我想在尝试此操作时将其上传到文件浏览器中，它给了我一个错误，我试图通过在此搜索答案来解决它网站，我发现问题出在群集“clouderamanager”中，当我尝试打开它时，它给了我一条消息，强烈建议使用10个Rams，但如果你想强制打开，请使用命令force“我的电脑是6gram并且在下载系统时建议使用8gram总线我给虚拟机5.5gram并且它在使用系统时很灵活那么问题是什么以及我如何强制启动cloudera管理器？最佳答案启动终端

cloudera hadoop section 入门 bigdata data-science cloudera-manager

hadoop - Lzo 文件不会在配置单元作业中拆分

我们在s3中有3个.lzo文件和相应的.index文件。我们正在这些文件的目录上创建一个外部表。每个lzo文件的大小为100MB+，每个文件的未压缩大小为800+MBblock大小为128MB。当我们运行配置单元查询时，不幸的是只有3个映射器被生成，这表明没有发生split，可能是什么问题？最佳答案 Splittable仅在压缩文件的大小大于拆分大小时适用。Hive默认拆分大小为256MB。在Hivesession中修改拆分大小并运行查询。setmapreduce.input.fileinputformat.split.minsi

配置单 hadoop section stackoverflow amazon-web-services amazon-s3 hive lzo

40 41 424344 45 46