HADOOP

java - Hadoop Mapreduce 让 addInputPath 使用特定文件名

嘿，这更像是一个java问题，但它与Hadoop相关。我的MapReducejava作业中的代码中有这一行:JobConfconf=newJobConf(WordCount.class);conf.setJobName("WordCount");.......................................FileInputFormat.addInputPath(conf,newPath(args[0]));我如何设置特定的文件名，而不是“给”一个包含许多文件的目录？最佳答案摘自《Hadoop:权威指南》一书:A

java - 运行 Hadoop : insufficient memory for the Java Runtime Environment to continue

我有一个在3gb内存上运行的32位linux系统。当我尝试运行hadoop示例时，它失败了，说没有足够的内存分配给jre。生成的结果是:hadoopjarmapreduce/hadoop-mapreduce-examples-*.jargrepinputoutput‘dfs[a-z.]+’15/01/1110:17:04INFOclient.RMProxy:ConnectingtoResourceManagerat/127.0.0.1:803215/01/1110:17:05WARNmapreduce.JobSubmitter:Nojobjarfileset.Userclassesma

insufficient Environment mapreduce INFO Configuration java linux hadoop

hadoop - 使用 sqoop 将数据从 Hive 导出到 rdbms 时如何处理主键

这是我的场景，我在配置单元仓库中有一个数据，我想将此数据导出到mysql中名为“测试”数据库的“示例”表中。如果一列是sample.test中的主键，并且hive中的数据(我们正在导出)在该键下有重复值，那么作业显然会失败，那么我该如何处理这种情况？提前致谢最佳答案如果你希望你的mysql表只包含重复项中的最后一行，你可以使用以下内容:sqoopexport--connectjdbc:mysql:///test-tablesample--usernameroot-P--export-dir/user/hive/warehouse

何处 hadoop section 插入语 update export hive sqoop

shell - 如何获取 Pig 脚本的准确返回值并将其用于进一步处理？

我知道Pig在完成这些场景时会返回不同的代码:返回代码0:所有作业都成功返回码1:用于可恢复的错误返回代码2:所有作业均已失败返回码3:部分作业失败在我的代码中，我想根据MapReduce作业的成功采取适当的操作。如何着手去做？Pig错误保存在日志中，但是，我应该使用什么机制来了解成功执行的pig脚本？最佳答案如果您使用shell脚本运行pig脚本，您可以检查上次执行的脚本的状态，如果返回0，那么您只能继续执行第二步，如果第一步失败，它会显示一条错误消息。./pig_script.shif[$?-eq0];thenecho"Su

进一并将 section stackoverflow shell hadoop error-handling apache-pig

hadoop - 输入格式决定

我想找出给定的答案中哪个最适合这个问题:Givenadirectoryoffileswiththefollowingstructure:linenumber,tabcharacter,string:Example:1abialkjfjkaoasdfjksdlkjhqweroij2kadfjhuwqounahagtnbvaswslmnbfgy3kjfteiomndscxeqalkzhtopedkfsikjYouwanttosendeachlineasonerecordtoyourMapper.WhichInputFormatshouldyouusetocompletetheline:co

hadoop 输入 strong section 适合 mapreduce

hadoop - Ambari 1.7 安装无法注册主机 - 数据库中不存在主机条目

我正在尝试通过Ambari1.7在Centos6.5节点上安装HDP2.2。我必须承认安装说明有点困惑，但我相信我已经完成了Ambari安装向导工作所需的所有必要步骤。Ambari服务器设置很顺利，我已经为Ambari创建了一个MySQL数据库并运行了生成模式的创建SQL脚本等。现在，当我尝试通过向导注册主机时，出现异常，提示我的主机不存在于数据库中。好吧，没错，我的主机表是空的。我的最终问题是如何通过此错误并继续安装。但我相信它可能就像需要运行一些插入到ambari数据库主机表的脚本一样简单。有谁知道该表何时被写入？我已经使用完全限定的主机名和安装指南中提到的各种其他配置更改更新了我

条目 hadoop ambari apache server hortonworks-data-platform

hadoop - 我可以在 HDFS 中有不同的 block 放置策略吗？

即一个集群有多个应用程序，每个应用程序在副本位置方面有不同的要求-我可以设置它以支持这些多个应用程序吗？最佳答案是的，这是可能的。注意:自行承担风险。编写block放置策略极其复杂且具有风险。您的应用程序需要确定如何放置副本，这似乎是一种代码味道。想想你是否真的需要编写block放置策略。警告过您之后，如果您想知道如何完成此操作，请继续。通常，此功能用于控制群集的平衡程度。例如。由Hadoop供应商之一构建的策略之一是将block放置在磁盘使用百分比最低的磁盘上。这里有一堆资源供您查看:SO发布同样的问题:Modifyingth

hadoop block section stackoverflow hdfs

sql - 使用 PARTITION BY (HIVE) 时如何过滤掉组中的重复元素

假设我有下表(动物):**Color****Species****Weight**WhiteDog20WhiteDog8WhiteDog33BlackDog55BrownDog80WhiteCat10BlackCat14WhiteCat9我想按物种分组，过滤每个物种内的独特颜色，并为每个过滤组找到两种最亮的动物。生成的表格应如下所示:**Color****Species****Weight**WhiteDog8BlackDog55WhiteCat9BlackCat14我正在使用以下查询(我知道这是不正确的):SELECTcolor,species,weightFROM(SELECTsp

PARTITION HIVE SELECT 39 Species sql hadoop

hadoop - 文件系统 listStatus 抛出 NullPointerException

我正在尝试列出HDFS中存在的目录的内容。我尝试了以下代码:publicstaticvoidmain(String[]args)throwsIOException{Stringuri=args[1];Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(URI.create(uri),conf);for(inti=0;i但是我遇到了一个异常(exception):Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.hadoop.fs

NullPointerException listStatus FileSystem java section hadoop hdfs bigdata

hadoop - HDFS 中的文本文件未正确压缩

我的本地有一个.txt文件，我想把这个文件压缩成.gz，然后上传到HDFS的某个位置。下面是我试过的代码:StringcodecClassName=args[1];Stringsource=args[2];Stringdest=args[3];InputStreamin=newBufferedInputStream(newFileInputStream(source));ClasscodecClass=Class.forName(codecClassName);Configurationconf=newConfiguration();CompressionCodeccodec=(C

本文 hadoop code section HDFS bigdata codec

126 127 128129130 131 132