草庐IT

mapReduce

全部标签

hadoop - 如何在没有 MapReduce 的情况下在 HBase 中进行分布式更新

问题我有一些工作只需要遍历HBase表中的每条记录并完成一些任务。例如,提取用于导出的字段或根据某些新业务规则更新字段。推理MapReduce在这里似乎有些矫枉过正。没有什么可以真正映射,也没有“减少”。映射始终只是键+记录。洗牌和排序肯定没有用,因为它们的键保证在HBase中是唯一的。出于性能原因,这仍应分发。我想我正在寻找恰好分发的很好的老式表扫描。问题存在哪些选项可以利用集群但避免完整MapReduce作业的不必要步骤? 最佳答案 Co-processors正是为了这个。来自链接:“用于灵活和通用扩展以及直接在HBase服务器

java - 为什么 hadoop 不能识别我的 Map 类?

我正在尝试在hadoop2.2.0上运行我的PDFWordCountmap-reduce程序,但出现此错误:13/12/2523:37:26INFOmapreduce.Job:TaskId:attempt_1388041362368_0003_m_000009_2,Status:FAILEDError:java.lang.RuntimeException:java.lang.ClassNotFoundException:ClassPDFWordCount$MyMapnotfoundatorg.apache.hadoop.conf.Configuration.getClass(Confi

Hadoop 2.6 Mapreduce 权限在 Windows 上设置不正确

我已经在Windows上安装了Hadoop2.6作为一些依赖于Hadoop的软件的测试平台。据我所知,安装工作正常。我在C:\Hadoop中保存了Hadoop,在C:\hadooptemp中保存了我的临时文件夹。我按照本教程进行了设置:https://drive.google.com/file/d/0BweVwq32koypYm1QWHNvRTZWTm8/view当我按照教程中的说明为pi运行hadoop-mapreduce-examples-2.6.0.jar时,我得到以下输出:NumberofMaps=2SamplesperMap=5WroteinputforMap#0Wrotei

java - hadoop mapReduce项目下pom.xml的设置

我创建了一个字数统计项目并使用maven导入了maxmind(maven)的GeoIP-这个Geoip项目是buildwithmaven.导入后,我在字数统计项目旁边有一个新项目(geoIP),其中包含由eclipse创建的pom.xml(很长)。但是在上面的链接中他们说添加到pom.xmlcom.maxmind.geoip2geoip2v2.3.0我不明白如果eclipse为我创建了pom.xml,我应该用上面的代码删除还是添加它?我需要多少个pom.xml文件?MapReduce项目是否也需要用maven构建? 最佳答案 我没有

hadoop - java.lang.RuntimeException : java. lang.NoSuchMethodException:Hadoop mapreduce

我收到java.lang.NoSuchMethodException请帮我解决这个问题......importjava.io.BufferedReader;importjava.io.FileReader;importjava.io.IOException;importjava.text.DateFormat;importjava.text.SimpleDateFormat;importjava.util.Date;importjava.util.HashMap;importorg.apache.hadoop.conf.Configuration;importorg.apache.ha

hadoop - 配置 Hive 以本地模式运行

您好,我正在尝试以本地模式运行Hive,我已经设置了HIVE_OPTS环境变量exportHIVE_OPTS='-hiveconfmapred.job.tracker=local-hiveconffs.default.name=file://///hivelocal/tmp-hiveconfhive.metastore.warehouse.dir=file://///hivelocal/warehouse-hiveconfjavax.jdo.option.ConnectionURL=jdbc:derby:;databaseName=//hivelocal/metastore_db;cr

java - Hadoop 正在完全跳过 reduce 阶段

我已经像这样设置了一个Hadoop作业:publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();Jobjob=Job.getInstance(conf,"Legion");job.setJarByClass(Legion.class);job.setMapperClass(CallQualityMap.class);job.setReducerClass(CallQualityReduce.class);//Explicitlyconfiguremapandreduce

java - 比较mapreduce中的三个字段

我有一个mapreduce程序,它将输入作为名字、姓氏和手机号码。我想将这3个字段分组为一个键。为此,我为一个类使用了WritableComparable接口(interface)。我的代码是:privatestaticclassMultifieldimplementsWritableComparable{Textfirstname1;Textlastname1;Textmobile1;publicMultifield(Textfirstname1,Textlastname1,Textmobile1){this.firstname1=firstname1;this.lastname1=

hadoop mapreduce 反之亦然

我有以下示例数据,我正在使用这些数据来学习hadoopmapreduce。比如follower和followee的数据。Follower,followeea,ba,ca,dc,bb,dd,ab,cb,ee,f比如a在b之后,a在c之后等等....我正在尝试操作数据并获得结果,如果a跟随b并且b也跟随a那么a,b应该是输出txt文件中的结果。我是mapreduce的新手,并试图找到一种方法以便获得以下结果。a,dc,b 最佳答案 您可以使用一个技巧来实现这一点。诀窍是以(a,d)和(d,a)具有相同key并最终进入相同缩减器的方式将键

Hadoop:如何将作业发送到 master 和 mapreduce 上的节点?

我正在学习Hadoopmapreduce基本原理,很多东西都看不懂。一件事是作业如何从客户端发送到主节点和节点。假设我们有客户端、主服务器和两个从服务器。据我了解,Mapper类位于java类的客户端上。客户端连接到主服务器,下一步是什么?Mapper类中的代码如何传递给主节点,然后传递给节点?还是我理解错了? 最佳答案 如图所示,这是发生的事情:您使用hadoopjar命令在客户端上运行作业,在该命令中您传递jar文件名、类名和其他参数(例如输入和输出)客户端将获得新的应用程序ID,然后它将jar文件和其他作业资源复制到具有高复制