草庐IT

hadoop - 从 Hadoop 子目录处理数据文件

我希望我的hadoop作业从子目录的叶节点获取数据。因此,数据将始终仅存在于具有.dat扩展名的叶节点中。说明子目录结构:说a->b->1.dat,a->c->2.dat我尝试在HDFS上执行fs-put"a"目录,然后将"a"指定为hadoop作业的输入,但它失败了。然而,如果dat文件在“a”内,上述方法工作正常。任何可能的解决方案? 最佳答案 使用多输入格式,我们可以读取两个不同格式的文件,并将两者合并的结果发送给reducer作业。请查看以下链接。https://github.com/subbu-m/MultipleInpu

hadoop - 通过 hadoop mapreduce 限制处理记录的数量

我有一个hugh文件(包含超过200亿条记录的hive表)我需要运行一个mapreduce来处理前10k条记录。有没有一种有效的方法来限制hadoopmapreduce处理记录的数量? 最佳答案 您可以将LIMIT与任务规范一起使用。但是,如果您必须一次又一次地执行此操作,那么更好的自动化解决方案是使用OOZIE(hadoop工作流编辑器),它可以在配置单元中为您的数据创建分区。 关于hadoop-通过hadoopmapreduce限制处理记录的数量,我们在StackOverflow上找

hadoop - 在 Hadoop 映射中处理 Zip 文件

我是Hadoop和Mapreduce的新手。现在我需要使用Mapreduce处理myproject中的一个zip文件,比如输入必须是一个zip文件,输出可能是zip或文本文件。任何人都可以给我sample或建议我一个链接。谢谢,瓦拉丹.S 最佳答案 我目前还在研究Hadoop和Mapreduce。无需为Zip文件特别指定任何内容。hadoop会自动解压缩并处理它们。但是,输出是我正在使用的文本。我目前正在处理大量压缩文件,其中每个tar.gz文件都包含一个文本文件。问候巴拉拉姆 关于ha

hadoop - 作业跟踪器中的配置单元查询

您好,我们正在最近升级到的CDH4环境中运行配置单元查询。我注意到的一件事是,在早期的CDH3中,我们能够在Jobtracker中跟踪我们的查询。类似于“hostname:50030/jobconf.jsp?jobid=job_12345”的链接会有一个参数“hive.query.string”或“mapred.jdbc.input.bounding.query”,其中包含实际查询MR作业被执行。但在CDH4中,我看不到在哪里可以获得查询。许多查询并行运行以跟踪我们关注的查询。 最佳答案 您仍然可以在工作跟踪器中查看配置单元查询。根

hadoop - 如何将输入模式附加到 pig 中的输出

我写了一个UDF,其中我的输入模式是一袋元组,现在在我的UDF中,我正在处理每个元组并为每个元组附加额外的字段并将其提供给输出包。这很好用,现在在我的下一步中,我尝试创建我的输出包的输出模式,我只想在我的包输入的元组中附加一个字段。我该怎么做?这是我的输入包架构。xx:{(uniqueRS::PreprocUDF::id:long,uniqueRS::PreprocUDF::dominion:chararray,uniqueRS::PreprocUDF::affectedItemGRN:chararray,uniqueDomAndUser:{(PreprocUDF::dominion:

hadoop - 图像的 Avro 文件类型?

我尝试...在Hadoop中计算这种情况。最好的文件格式是Avro还是SequenceFile,以防在HDFS中存储图像并在之后使用Python处理它们?SequenceFile是面向键值的,所以我认为Avro文件会更好用? 最佳答案 我使用SequenceFile在HDFS中存储图像,效果很好。Avro和SequenceFile都是二进制文件格式,因此它们可以高效地存储图像。作为SequenceFile中的键,我通常使用原始图像文件名。SequenceFile用于许多图像处理产品,例如OpenIMAJ。您可以使用现有工具处理Seq

python - 将 Hadoop 流作业的输出发送到 STDOUT

对于流式作业,您必须指定输出目录。如果我想将映射器的结果输出到标准输出而不是HDFS目录怎么办?这可能吗?我想这样做,以便我可以通过管道传输到其他程序。 最佳答案 我在hadoop中编写了许多流式作业。目前尚不清楚您希望您的自定义管道在这里做什么。让我们仔细看看,假设您用python编写了映射器/缩减器(例如,对于shell脚本,从.py更改为.sh):hadoopjarhadoop-*streaming*.jar-filemapper.py-mappermapper.py\-input/user/myuser/input/*-ou

hadoop - java.lang.NoClassDefFoundError : org/apache/hadoop/hdfs/BenchmarkThroughput 错误

我尝试在CDH4.4上运行TestDFSIO,这是我通过命令行(而不是ClouderaManager)启动的。这是我运行的命令:bin/hadoopjarhadoop-test-2.0.0-mr1-cdh4.4.0-SNAPSHOT.jarTestDFSIO-Ddfs.replication=1-write-nrFiles2-fileSize4000这是我得到的错误:java.lang.NoClassDefFoundError:org/apache/hadoop/hdfs/BenchmarkThroughputatorg.apache.hadoop.test.AllTestDriver

macos - 尝试安装 Hadoop - 出现权限被拒绝错误

我关注了thisHadoop教程在这里。我的最终目标是安装Hadoop和Spark,以及不在我的Mac上的东西,但老实说,我充其量只是这方面的业余爱好者。所以,我开始执行第2步,在Psuedo-DistributedOperation的执行下,然后出现以下内容:sudostart-dfs.shPassword:2014-06-1018:42:01.200java[6982:1303]UnabletoloadrealminfofromSCDynamicStore14/06/1018:42:01WARNutil.NativeCodeLoader:Unabletoloadnative-had

hadoop - 在没有 YARN 的情况下安装 HDFS 以与 SHARK 一起使用

我正在尝试安装ApacheShark。其中一项要求是安装HDFS。我不想使用YARN或MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装2.x之前的hadoop发行版?如果有,是哪一个?或者我可以使用Hadoop2.4并以某种方式禁用YARN吗?我不太确定该怎么做。我能找到的所有教程似乎都使用YARN。有人对如何仅在2.x中使用HDFS有任何建议吗?如果只想安装HDFS,我需要哪个hadoop发行版? 最佳答案 要使用shark,您需要安装:HDFS存储数据hive用于内存中使用的Sparkyarn不是强制性的