草庐IT

SQL 按 map-reduce 中的等价物分组

我运行的大多数查询都采用这种格式:SELECTCOUNT(*),A.a1FROMAWHEREA.a2='x'GROUPBYA.a1A表是一个包含csv文件的hdfs文件夹。因为hive慢得离谱,我如何在map-reduce中实现这个查询?谢谢 最佳答案 您的SQL查询可以映射到MapReduce的HelloWorld等效项:WordCount。我怀疑自定义实现是否可以比Hive(编译为MapReduce)快得多,但这是如何做到的:TextInputFormat->(pos,line)(pos,line)->Mapper:解析/标记行

hadoop - 如何编写简单的 map-reduce 作业以将制表符分隔的文本文件转换为序列文件?

我想将一个文本文件作为映射器的输入并输出一个序列文件。如何编写一个简单的map-reduce作业?文本文件将具有制表符分隔值。例如输入:group112345对于这样的输入,我想创建输出序列文件,其键为“group1”,其值应为12345的向量。我怎样才能写这些工作?另外我觉得在这种情况下我不需要reducer。在这种情况下如何编写identityreducer作业?我可以跳过编写reducer作业吗?感谢任何帮助。问候。 最佳答案 是的,您可以跳过编写Reducer。将其设置为简单的Reducer.class。同时调用setNum

eclipse - 在 Eclipse 中运行 Map Reduce 程序

我有一个Map/Reduce程序,它加载一个文件并将其读入hbase。如何通过Eclipse执行我的程序?我用谷歌搜索并找到了两种方法:1)UsingEclipseHadoopplugin2)CreateajarfileandexecuteitinHadoopserver但是,我可以通过提供连接详细信息并在eclipse中运行来执行我的Map/Reduce程序吗?任何人都可以告诉我运行HbaseMap/Reduce程序的确切过程吗? 最佳答案 我做了以下事情:在我的机器上安装并配置了hadoop(和hdfs)使用我的hadoop作业

unit-testing - 如何让 HBaseTestingUtility 在 map reduce 作业中查找类?

我们正在使用cdh3u4、Hadoop和HBase。在启动HBaseTestingUtility提供的miniMapReduceCluster之后,我正在尝试运行一个单元测试以启动MapReduce作业。作业失败并在map和reducer任务stderr日志中显示:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/mapred/ChildCausedby:java.lang.ClassNotFoundException:org.apache.hadoop.mapred.Childatjava.

eclipse - 如何在windows的eclipse中配置map reduce插件(Hadoop安装在Linux服务器上)

我正在尝试从Windows连接到hadoop集群不属于hadoop集群的机器..基本上我们在linux服务器机器上安装了hadoop..所以没有GUI可用的。因此,出于这个原因,我们要做的是运行eclipse在Windows机器上使用hadoopeclipse插件..并尝试从Windows机器。我不知道如何运行mapreduce从这台windows机器到hadoop主节点的程序.. 最佳答案 您可以通过安装Cygwin在windows中拥有Map-Reduce的开发环境您将需要:Cygwin配置ssh守护进程启动SSH守护进程设置授

hadoop - reducer 阶段根本没有启动。它总是 'reducer=0%'

我一直在等待reducer阶段开始,但它没有开始。我试过格式化名称节点,但仍然是同样的问题。无论reducer必须运行在哪里,我都会遇到这个问题。任何人都可以在这方面帮助我。hive>LOADDATALOCALINPATH'/home/training/Desktop/student_performs_CSV.csv'OVERWRITEINTOTABLEstud_marks;Copyingdatafromfile:/home/training/Desktop/student_performs_CSV.csvCopyingfile:file:/home/training/Desktop/

java - 在 Hadoop map-reduce 中对连接的数据进行分组

我有两种不同类型的文件,一种是用户列表。它具有以下结构:用户ID、姓名、国家/地区ID第二种是订单列表:OrderID,UserID,OrderSum每个用户都有很多订单。我需要编写map-reducehadoop作业(在java中)并接收具有以下结构的输出:CountryID,NumOfUsers,MinOrder,MaxOrder编写两个不同的映射器(针对每种文件类型)和一个缩减器以便通过UserID连接来自两个文件的数据并接收以下结构对我来说不是问题:UserID,CountryID,UsersMinOrder,UsersMaxOrder但我不明白如何按CountryID对数据进

hadoop - 在 Map reduce 中每次修改代码都需要创建一个 jar 文件

我正在Hadoop单节点集群中运行一个程序(MapReduce)。经常对MapReduce逻辑进行一些修改。我正在使用EclipseIDE。每次修改逻辑后,我都会创建一个jar文件来检查Hadoop中的Mapreduce作业。每次修改MapReduce逻辑后都创建一个jar文件有点繁琐。有没有更简单的方法来在每次进行更改时创建jar文件?请指教。 最佳答案 不清楚是您必须制作jar文件这一事实还是制作jar的过程似乎太困难的问题。首先,您必须制作一个jar文件才能将作业提交到Hadoop。没有办法解决这个问题。其次,为了简化创建ja

hadoop - 如何在 Reduce Join 算法中设置多个 Mappers?

在Reduce侧连接算法中,使用了两个映射器类。但是在我的代码的驱动类中都没有设置,只设置了reducer。作业如何知道要使用哪个映射器类?我们如何为一个作业设置多个映射器类?我正在使用hadoop2.2感谢和问候,迪拉吉PS:我只是从发给我导师的电子邮件中复制粘贴了问题,所以你们中的一些人可能已经看到问题中出现了他的名字。对此表示歉意。 最佳答案 找到答案..对于它设置的多个映射器MultipleInputs.addInputPath(); 关于hadoop-如何在ReduceJoin

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件,在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。 最佳答案 您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。 关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques