草庐IT

reduce-reduce-conflict

全部标签

python - 如何在本地测试 Map 和 Reduce 代码?

如果我有一个从多个csv文件读取并生成键值对的map.py文件,我该如何将它们传递到我的reducer.py并在本地进行测试? 最佳答案 如果您正在使用hadoop流,那么您可以像这样在本地测试您的脚本:cat*.csv|map.py|sort-k1,1|reducer.py要在hadoop-streaming中将数据从mapper传递到reducer,只需编写"\t"到标准输出 关于python-如何在本地测试Map和Reduce代码?,我们在StackOverflow上找到一个类似的

hadoop - 如何在map reduce中按降序对数据进行排序?

我的reducer给出了这个o/pCountry-Year,MedalsIndia-2008,60UnitedStates-2008,1237Zimbabwe-2008,2Namibia-2009,22China-2009,43UnitedStates-2009,54我想要这个,应该根据奖牌进行排序,并且应该显示前三名。Country-Year,MedalsUnitedStates-2008,1237India-2008,60UnitedStates-2009,54有人建议我在自定义记录阅读器中进行排序(据了解它用于映射器部分),我浏览了一些资源但找不到太多关于排序的信息。请分享任何想

hadoop - 获取 java.lang.OutOfMemoryError : GC overhead limit exceeded While Submitting Map Reduce

提交mapreduce时收到以下消息。我使用-XX:MaxPermSize=128m内存大小启动我的mapreduce程序。有没有人知道现在发生了什么-17/03/2409:58:46INFOhdfs.DFSClient:CreatedHDFS_DELEGATION_TOKENtoken1160328forsvc_pffronha-hdfs:nameservice317/03/2409:58:46ERRORhdfs.KeyProviderCache:Couldnotfinduriwithkey[dfs.encryption.key.provider.uri]tocreateakeyPr

java - JVM 在 hadoop reducer 上崩溃

我在hadoop上运行java代码,但是遇到这个错误:##AfatalerrorhasbeendetectedbytheJavaRuntimeEnvironment:##SIGSEGV(0xb)atpc=0x00007f2ffe7e1904,pid=31718,tid=139843231057664##JREversion:Java(TM)SERuntimeEnvironment(8.0_72-b15)(build1.8.0_72-b15)#JavaVM:JavaHotSpot(TM)64-BitServerVM(25.72-b15mixedmodelinux-amd64compres

java - 在 native Java map reduce 中将 Parquet FIXED_LEN_BYTE_ARRAY 转换为 DECIMAL

我的底层数据是使用HIVE输出格式(org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat)编写的尝试使用nativeJavaMapreduce读取此数据byte[]b=value.getBinary(value.getType().getFieldIndex(field),0).getBytes();HiveDecimalhd=HiveDecimal.create(b,true);此处的值是org.apache.parquet.example.data.Group类型hd在这种情况下变为NULL。但下面对字符串/整

java - 使用 MAP Reduce JAVA 解析平面 Json 文件

我的任务是从HDFS解析Json对象并写入HDFS中的单独文件。以下是我的代码。packagecom.main;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapr

java - MapReduce 中的 Reducer 值需要复制,否则需要修改?

在MapReduce应用程序中,我有一个名为AnonymousPair的任意WritableComparable实现,我注意到了这一点importcom.google.common.collect.MinMaxPriorityQueue;publicstaticclassMyReducerextendsReducer{@Overrideprotectedvoidreduce(LongWritablekey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{//...MinMaxPriorityQue

java - hadoop map reduce线程中整个reducer步骤是否安全?

如果我在reducer类中有成员变量,并且让reduce函数改变成员变量,我是否必须格外小心以使其线程安全? 最佳答案 IfIhavemembervariableinthereducerclass,andhavethereducefunctionmutatethemembervariable,doIhavetotakeextracautiontomakeitthreadsafe?不,您不必格外小心-成员变量将在当前Reducer内发生变化,但这将与同一reducer类的任何其他实例隔离。

hadoop - 让多个 reduce 任务组装一个 HDFS 文件作为输出

Hadoop中是否有任何低级API允许在不同机器上运行的多个reduce任务组装单个HDFS作为其计算输出?类似于,在作业开始时创建stubHDFS文件,然后每个reducer创建可变数量的数据block作为输出,并根据特定顺序将它们分配给该文件 最佳答案 答案是否定的,对于罕见的用例来说,这将是不必要的复杂化。你应该做什么选项1-在hadoop命令末尾添加一些代码intresult=job.waitForCompletion(true)?0:1;if(result==0){//statuscodeOK//lsjoboutputdi

java - 在 map reduce word count 程序中需要获取单词存在的文件

我正在读取多个输入文件以解决字数统计问题。示例文件名:文件1.txt文件2.txt文件3.txt我能够获得字数,但如果我还想获得文件名以及字数,应该添加什么。举个例子,文件1的内容:欢迎使用Hadoop文件2的内容:这是hadoop当前输出:Hadoop2是1这1到1欢迎1预期输出:Hadoop2File01.txtFile02.txt是1个File02.txt这1个File02.txt到1File01.txt欢迎1File01.txt 最佳答案 首先对输入进行拆分字符串文件=((FileSplit)inputSplit).getP