mapReduce

java - 如何解决预期的 org.apache.hadoop.io.Text，在 mapreduce 作业中收到 org.apache.hadoop.io.LongWritable

我正在尝试编写一个可以分析来自youtube数据集的一些信息的工作。我相信我已经在驱动程序类中正确地设置了来自map的输出键，但是我仍然遇到上述错误我正在发布代码而这里的异常(exception)，映射器publicclassYouTubeDataMapperextendsMapper{privatestaticfinalIntWritableone=newIntWritable(1);privateTextcategory=newText();publicvoidmapper(LongWritablekey,Textvalue,Contextcontext)throwsIOExcep

hadoop - Hadoop 集群环境中的 Mapreduce 作业连接被拒绝

我设置了一个4节点Hadoop集群，其中包含一个主节点和三个数据节点。在我尝试执行mapreduce作业之前，一切似乎都运行良好。Jps(主节点):[root@masterlogs]#jps26967SecondaryNameNode25720JobHistoryServer26778NameNode27115ResourceManager27839JpsJps(数据节点):[root@localhost~]#jps21872DataNode22257Jps21974NodeManagermaster节点上的yarn日志文件给出如下异常:2018-05-2221:59:10,376IN

Mapreduce hadoop gt lt property hadoop-yarn

java - 如何从 Java 运行 MapReduceIndexerTool 作业？

我想从Java运行MapReduceIndexerTool。现在我使用hadoopjar从命令行执行此操作，如您所见here，但我想从Java代码检查它的状态(查看它是否已完成、正在进行等)。所以基本上我想从Java运行它，以便能够从Java检查它的状态。有没有办法从命令行运行它并从Java检查它的状态？此外，还有一种方法可以让MapReduce在作业完成时发送一个事件(例如在回调上)？像webhook之类的东西？最佳答案据我所知，Tool接口(interface)仅公开了intrun(String[]args)方法，因此通常您

MapReduceIndexerTool java section code hadoop indexing mapreduce

java - Hadoop MapReduce的Java实现中如何创建全局变量？

现在我想创建一个全局双变量(成员)，它可以被MapReduce作业中的每个映射器/缩减器访问和更改。起初我试图在我的主java文件中声明一个静态double成员，但这似乎有问题，因为每个映射器/缩减器都在单独的JVM上运行，并且可以正确更改和访问该成员。我知道对于int变量有counter机制。但是，如果我想创建一个全局double变量，我该怎么做呢？我的最终目标是总结所有映射器/缩减器中的双重格式。如果我不能或不应该创建全局变量，是否有任何其他方法可以实现该目标？最佳答案这些double来自哪里？如果它们在输入数据中，您可以将

MapReduce Hadoop 射器 section 缩减 java

hadoop - 在两节点 hadoop 集群中运行映射缩减作业时出错 : Too many fetch-failures, 读取任务输出时出错 http://localhost:50060/tasklog

我已经建立了一个双节点hadoop集群。我启动了hadoop文件系统和mapreduceddaemons没有错误，并验证它们正在主从上运行。我可以使用命令bin/hadoopdfs-getmergehdfs://my.domain.com:54310/user/wordcount/sunzi.txt/tmp/wordcount从主节点和从节点读取输入文件。当我运行mapreduce作业时，我在输出中看到错误。作业最终完成，但reduce部分花费了很长时间，并且每次打印错误时它都会继续返回map任务。我的站点配置文件引用了master的dns名称，所以我不知道为什么作业要尝试从“loca

时出中运 mapred 201212201046 JobClient hadoop mapreduce

hadoop - 为什么 DISTINCT 在 Pig 中比 GROUP BY/FOREACH 快

我不知道为什么DISTINCT在Pig中比GROUPBY/FOREACH快，它们在MapReduceFramework中应该是相同的，但请引用:http://pig.apache.org/docs/r0.10.0/perf.html#distinctPigwiki说“要从关系中的列中提取唯一值，您可以使用DISTINCT或GROUPBY/GENERATE。DISTINCT是首选方法；它更快、更高效。”为什么？实现方式不同吗？最佳答案 distinct的输出是一种关系，它仅包含您对其进行区分的列，因此Map作业仅输出指定列的值作为键

中比 DISTINCT section hadoop mapreduce apache-pig

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

以下用例:我对.gz压缩大小约为500GB的数据运行配置单元查询:selectcount(distinctc1),c2fromt1groupbyc2;此查询产生约2800个映射作业和约400个缩减作业。在设置具有20个实例(每个160GB实例存储)的Hadoop集群时，该工作将停止在97%map和21%reduceprogress，然后回落到94%map和19%reduceprogress，然后就没有任何进展了。我认为这是因为HDFS的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的HDFS磁盘空间？请记住，

Map-Reduce calculate hadoop apache java mapreduce hive hdfs elastic-map-reduce

java - 在映射器中写入自定义对象时出错

我已经扩展了WritableComparable并希望将其存储为映射器作为映射器值。publicclassSenderRecieverPairimplementsWritableComparable{Setpair=newTreeSet(newComparator(){@Overridepublicintcompare(InternetAddressadd1,InternetAddressadd2){returnadd1.getAddress().compareToIgnoreCase(add2.getAddress());}});publicSenderRecieverPair(){

时出自定 hadoop apache InternetAddress java mapreduce writable

java - mapreduce 程序中的错误 : Exception in thread "main" java. lang.VerifyError

我是mapreduce程序的初学者，在运行该程序时出现以下错误:Exceptioninthread"main"java.lang.VerifyError:(class:com/google/common/collect/Interners,method:newWeakInternersignature:()Lcom/google/common/collect/Interner;)Incompatibleargumenttofunction错误是什么以及要包含哪个jar文件？最佳答案另一个原因是同时使用google-collect

java VerifyError google section common eclipse hadoop mapreduce

Hadoop 源代码

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我是Hadoop的新手，正在尝试了解更多相关信息。有时，我觉得查看特定类的源代码有助于更好地理解底层功能。但是，我不知道在哪里可以找到HadoopAPI中存在的每个Java类的源代码。谁能告诉我怎么做？它是我为运行该框架而下载的HadoopJar文件的一部分吗？请澄清我的疑问...谢谢

Hadoop 源代码 section class notice mapreduce hdfs

69 70 717273 74 75