hadoop-release

hadoop - 在 Hadoop 映射中处理 Zip 文件

我是Hadoop和Mapreduce的新手。现在我需要使用Mapreduce处理myproject中的一个zip文件，比如输入必须是一个zip文件，输出可能是zip或文本文件。任何人都可以给我sample或建议我一个链接。谢谢，瓦拉丹.S 最佳答案我目前还在研究Hadoop和Mapreduce。无需为Zip文件特别指定任何内容。hadoop会自动解压缩并处理它们。但是，输出是我正在使用的文本。我目前正在处理大量压缩文件，其中每个tar.gz文件都包含一个文本文件。问候巴拉拉姆关于ha

hadoop - 作业跟踪器中的配置单元查询

您好，我们正在最近升级到的CDH4环境中运行配置单元查询。我注意到的一件事是，在早期的CDH3中，我们能够在Jobtracker中跟踪我们的查询。类似于“hostname:50030/jobconf.jsp?jobid=job_12345”的链接会有一个参数“hive.query.string”或“mapred.jdbc.input.bounding.query”，其中包含实际查询MR作业被执行。但在CDH4中，我看不到在哪里可以获得查询。许多查询并行运行以跟踪我们关注的查询。最佳答案您仍然可以在工作跟踪器中查看配置单元查询。根

跟踪器配置单 section hadoop hive

hadoop - 如何将输入模式附加到 pig 中的输出

我写了一个UDF，其中我的输入模式是一袋元组，现在在我的UDF中，我正在处理每个元组并为每个元组附加额外的字段并将其提供给输出包。这很好用，现在在我的下一步中，我尝试创建我的输出包的输出模式，我只想在我的包输入的元组中附加一个字段。我该怎么做？这是我的输入包架构。xx:{(uniqueRS::PreprocUDF::id:long,uniqueRS::PreprocUDF::dominion:chararray,uniqueRS::PreprocUDF::affectedItemGRN:chararray,uniqueDomAndUser:{(PreprocUDF::dominion:

hadoop pig Schema FieldSchema PreprocUDF apache-pig cloudera piggybak

hadoop - 图像的 Avro 文件类型？

我尝试...在Hadoop中计算这种情况。最好的文件格式是Avro还是SequenceFile，以防在HDFS中存储图像并在之后使用Python处理它们？SequenceFile是面向键值的，所以我认为Avro文件会更好用？最佳答案我使用SequenceFile在HDFS中存储图像，效果很好。Avro和SequenceFile都是二进制文件格式，因此它们可以高效地存储图像。作为SequenceFile中的键，我通常使用原始图像文件名。SequenceFile用于许多图像处理产品，例如OpenIMAJ。您可以使用现有工具处理Seq

hadoop Avro SequenceFile section noreferrer

python - 将 Hadoop 流作业的输出发送到 STDOUT

对于流式作业，您必须指定输出目录。如果我想将映射器的结果输出到标准输出而不是HDFS目录怎么办？这可能吗？我想这样做，以便我可以通过管道传输到其他程序。最佳答案我在hadoop中编写了许多流式作业。目前尚不清楚您希望您的自定义管道在这里做什么。让我们仔细看看，假设您用python编写了映射器/缩减器(例如，对于shell脚本，从.py更改为.sh):hadoopjarhadoop-*streaming*.jar-filemapper.py-mappermapper.py\-input/user/myuser/input/*-ou

送到 python section strong 射器 apache hadoop mapreduce

hadoop - java.lang.NoClassDefFoundError : org/apache/hadoop/hdfs/BenchmarkThroughput 错误

我尝试在CDH4.4上运行TestDFSIO，这是我通过命令行(而不是ClouderaManager)启动的。这是我运行的命令:bin/hadoopjarhadoop-test-2.0.0-mr1-cdh4.4.0-SNAPSHOT.jarTestDFSIO-Ddfs.replication=1-write-nrFiles2-fileSize4000这是我得到的错误:java.lang.NoClassDefFoundError:org/apache/hadoop/hdfs/BenchmarkThroughputatorg.apache.hadoop.test.AllTestDriver

hadoop NoClassDefFoundError java URLClassLoader cloudera

macos - 尝试安装 Hadoop - 出现权限被拒绝错误

我关注了thisHadoop教程在这里。我的最终目标是安装Hadoop和Spark，以及不在我的Mac上的东西，但老实说，我充其量只是这方面的业余爱好者。所以，我开始执行第2步，在Psuedo-DistributedOperation的执行下，然后出现以下内容:sudostart-dfs.shPassword:2014-06-1018:42:01.200java[6982:1303]UnabletoloadrealminfofromSCDynamicStore14/06/1018:42:01WARNutil.NativeCodeLoader:Unabletoloadnative-had

Hadoop macos section localhost strong ssh

hadoop - 在没有 YARN 的情况下安装 HDFS 以与 SHARK 一起使用

我正在尝试安装ApacheShark。其中一项要求是安装HDFS。我不想使用YARN或MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装2.x之前的hadoop发行版？如果有，是哪一个？或者我可以使用Hadoop2.4并以某种方式禁用YARN吗？我不太确定该怎么做。我能找到的所有教程似乎都使用YARN。有人对如何仅在2.x中使用HDFS有任何建议吗？如果只想安装HDFS，我需要哪个hadoop发行版？最佳答案要使用shark，您需要安装:HDFS存储数据hive用于内存中使用的Sparkyarn不是强制性的

hadoop SHARK section HDFS YARN apache-spark shark-sql

java - hadoop框架上的排序算法

我在互联网上阅读了很多链接。这里有几个链接link1,link2.但我无法理解。他们到底在做什么。你能用更简单的方式解释一下这个算法吗？然后，是的，下一个问题，我想到了一种方法。告诉我它是否正确。算法-在映射器之间划分整数。映射器-所有映射器都使用基本方法(任何标准排序算法，此处不使用概念)。Reducer-当所有映射器完成他们的任务时。创建一个节点数等于映射器数量的最小堆。使用此最小堆对整个数据进行排序。(使用最小堆方法很容易对已排序列表的数量进行排序)。上述算法是否正确？最佳答案是的，你是对的。映射器使用快速排序和堆排序的混

架上 hadoop 射器 section strong java algorithm sorting mapreduce

java - 未处理的内部错误。 org.apache.hadoop.mapred.jobcontrol.JobControl.addJob

我在centos6上安装了pig，我是pig新手。我使用$pig-xlocal在本地模式下打开了pig。仅在执行DUMP时出错。错误消息是:错误2998:未处理的内部错误。org.apache.hadoop.mapred.jobcontrol.JobControl.addJob(Lorg/apache/hadoop/mapred/jobcontrol/Job;)Ljava/lang/String;我已经设置了JAVA_HOME，Java版本是1.7。但是没有安装hadoop。=================grunt>A=load'/etc/passwd'usingPigStorag

JobControl apache pig hadoop java apache-pig

144 145 146147148 149 150