mapReduce

hadoop - 您可以不通过 WebHCat (Templeton) 向 HDInsight 提交作业吗？

我正在使用一个提交MapReduce作业的现有工具，并且宁愿不必更改它以通过RESTAPI(WebHCat/Templeton)提交作业-有人知道这样做的方法吗？也许是一种将MapReduce服务公开到我想从中提交作业的服务器的方法？最佳答案 Microsoft已发布HDInsight.NETSDK。参见http://www.windowsazure.com/en-us/manage/services/hdinsight/submit-hadoop-jobs-programmatically/

不通 Templeton section submit-hadoop-jobs-programmatical hadoop mapreduce azure-hdinsight

hadoop - Hadoop CapacityScheduler slot reservation scheme 会死锁吗？

如果可用内存不能满足被调度作业的需要，HadoopCapacityScheduler会在TaskTracker上保留插槽(在TaskSchedulingMgr.getTaskFromQueue(...)中)。但是，这会造成任何僵局吗？假设，我有来自两个不同队列的两个不同作业，每个映射任务需要3个槽。每台机器只有4个map槽。起初，作业1被调度时，机器A上有2个slot可用，因此作业1保留了这2个slot。稍后，当作业2在机器A上被调度时，又有2个槽位可用，因此作业2保留了剩余的两个槽位。在这种情况下，作业1或作业2都不会获得足够的插槽在机器A上执行。CapacityScheduler中

CapacityScheduler reservation section strong hadoop mapreduce

parsing - 在hadoop中使用mapreduce程序解析pdf文件

我需要解析PDF文档。我有一个java程序来解析PDF文件。(当我解析PDF时，我使用了PDF中那些段落的字体信息。我不会将其转换为文本，因为如果我转换PDF进入文本文件我会丢失我的字体信息。所以我直接使用ApachePDFBox解析带有字体信息的pdf。我使用以下代码加载pdf文件StringinputFile="/home/Desktop/CTT/bcreg20130702a.pdf";Fileinput=newFile(inputFile);pd=PDDocument.load(input);现在我需要编写一个map-reduce程序来解析PDF文档。我不能在mapreduce程

mapreduce parsing section PDF SequenceFile hadoop pdfbox

hadoop - CDH4 : Version conflict: Found interface org. apache.hadoop.mapreduce.Counter，但类是预期的

我正在尝试从CDH3升级到CDH4，但从编译到运行时遇到版本冲突。我收到此错误:线程“主”java.lang.IncompatibleClassChangeError中的异常:找到接口(interface)org.apache.hadoop.mapreduce.Counter，但类是预期的从谷歌搜索看来，我的代码是针对Hadoop1.x编译的，并在Hadoop2.0上运行。我正在同一个Hadoop客户端上编译和运行该应用程序，因此它应该都是Hadoop2.0。这是我在客户端或此测试集群中的任何其他节点上运行“hadoop版本”所获得的结果:Hadoop2.0.0-cdh4.4.0颠覆文

hadoop interface strong gt versioning cloudera

java - Hadoop 分布式文件系统是否像 Google 文件系统那样支持任何更新操作？

我正在阅读Google文件系统上发表的论文，发现GFS支持在现有文件的任意位置追加和更新。据我所知，HDFS不支持更新操作，因为它旨在实现一次写入和多次读取的功能。HDFS现在确实支持追加操作。对于最近的版本，他们将dfs.support.append默认设置为false。所以我的问题是我们可以通过什么方式进行某种更新操作。我曾尝试查看，但我只知道HDFS不支持更新操作。希望尽快收到您的来信。仅供引用:我已经阅读了很多关于claudera和其他关于此的帖子。我能够在hadoop贡献者的一些博客中找到HDFS确实支持更新操作的可能性。但是没有人提到或确切说明它是如何进行更新操作的。

Hadoop Google strong section HDFS java mapreduce gfs

在没有 key 的情况下加入两个相等的数据集

我想使用Hadoop连接两个具有相同记录数但不带行号的文件。例如A.txtaxxbycz和B.txt1r2s3d加入后我需要拥有axx1rby2s3dcz这是IOW完美的并排连接。我不知道如何在Hadoop中执行此操作，我相信我需要对两个文件进行初始传递以附加行号？利用Pig和/或map/reduce技巧的各种组合的答案都很好。最佳答案这篇文章给了你一个提示:SOPOSTaboutspecialinputformat输入格式可以生成行号作为键，而不是给出字节偏移量。这样你就可以简单地使用一个单元映射器(只发出键值)并在reduc

key 的行号 section code join hadoop mapreduce

java - 使用 hadoop map reduce 处理 HTML 文件

我在hdfs中有一个输入文件夹，其中包含数千个HTML文件:/data/htmls/1/(HTMLfiles)/data/htmls/2/(HTMLfiles)../data/htmls/n/(HTMLfiles)我有一个java函数，它将HTML文件作为输入并对其进行解析，我想在映射器函数中读取这些HTML文件并将它们作为输入提供给解析器函数。因为输入文件是通过map函数逐行处理的，有没有办法处理HTML文件？最佳答案我不确定它的效果如何，但是MahoutXmlInputFormat是一个体面的XML阅读器。您也许可以将其调整

hadoop reduce section code HTML java mapreduce

hadoop - hadoop中的总订单分区器

我对totalorderpartitioner的概念完全陌生，我已经应用了这个概念，但我没有成功地产生全局排序。这是我的输入记录67657674897685766895768578678576857685786785786757658976857896758796795871个5个6个78个902个3个5个6个9这是我的映射器publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutputCollector,Reporterreporter)throwsIOException{//TODO自动生成的方法stuboutputCol

hadoop 中的 code jobConf outputCollector mapreduce mapper reducers

hadoop - 在 MapReduce 作业中使用之前，Amazon EMR 框架是否从 S3 复制数据

我注意到当输入位置是S3中的文件时，在调用EMR作业和实际开始数据的mapreduce处理之间需要等待很长时间。我的问题是，EMR是直接在驻留在nativeS3文件系统中的数据上运行，还是将数据复制到已配置的EC2机器(在EMR集群中)的HDFS集群中，在这种情况下，它会占用大量资源复制数据的时间？最佳答案 S3是一种存储机制，肯定不能处理数据。因此，在MR作业中处理之前，必须将数据复制到EC2节点。关于hadoop-在MapReduce作业中使用之前，AmazonEMR框架是否从S

MapReduce hadoop section 和实长时 amazon-s3 hdfs amazon-emr

hadoop - 前 10 个路径缩减图 reduce

我正在做一个需要路径导航图的项目。问题描述:为了提供项目上下文，示例UI应类似于:http://bl.ocks.org/mbostock/4063570.区别在于它将用于站点导航。我的问题是在后端处理数据。对于用户路径A->B->C->D->E我预先计算的数据格式如下所示:Origin:Start:End:LevelAABL1ABCL2ACDL3ADEL4现在，假设我有数百万条这样的记录，其中有100个起源，我可以将它们分组，聚合大小并按大小desc排序并取前10个。因此对于每个起源、开始和级别，我应该有10个记录每一个。因此，对于4个级别的图表，对于图表中给定的起始节点，我将有10.

缩减 hadoop section 的级别 graph mapreduce bigdata scalding

64 65 666768 69 70