GLOBAL_MAP_草庐IT

file - Map在Hadoop下运行时应该把临时文件放在哪里

我在SLES10(SUSE)下运行Hadoop0.20.1。我的maptask获取一个文件并生成更多文件，然后我从这些文件生成我的结果。我想知道我应该把这些文件放在哪里，这样性能才会好并且没有冲突。如果Hadoop可以自动删除该目录，那就太好了。现在，我正在使用临时文件夹和任务ID创建一个唯一的文件夹，然后在该文件夹的子文件夹中工作。reduceTaskId=job.get("mapred.task.id");reduceTempDir=job.get("mapred.temp.dir");StringmyTemporaryFoldername=reduceTempDir+File.s

hadoop - 为什么map任务总是在单个节点上运行

我有一个具有4个节点的全分布式Hadoop集群。当我将我的工作提交给Jobtracker时，它决定12个maptask对我的工作来说很酷，一些奇怪的事情发生了。12个maptask总是在单个节点上运行，而不是在单个节点上运行在整个集群上运行。在我问这个问题之前，我已经做了以下事情:尝试不同的工作运行start-balance.sh重新平衡集群但是它不起作用，所以我希望有人能告诉我为什么以及如何修复它。最佳答案如果输入数据文件的所有block都在该节点中，则调度程序优先考虑同一节点关

hadoop - 我的配置单元表有类型为 map<String,String> 的列。我想分解 map 并将它们转置为列而不是行

以下是我的hive表结构data_dtstringidstringrecordsmap按data_dt划分。当我运行查询时，selectid,key,valfromtestlateralviewexplode(records)taskey,val根据Hive文档，我的maprecords被分解成数据行。我需要按列而不是按行的分解数据。例如:上面的查询会产生我abc|k1|v1abc|k2|v2abc|k3|v3zxc|k1|v1zxc|k3|v3相反，我需要它如下id|k1|k2|k3abc|v1|v2|v3zxc|v3|/N|v3我知道explode是一个UDTF，因此它将结果转储为

java - 具有递归 Map 的 Hadoop MapReduce

我需要用Java做一个MapReduce应用程序，它需要自动递归，这意味着对于处理的每一行输入文件，它必须检查输入/映射条目的所有行是否有条件，并由函数验证。或者，换句话说，Reducer应该为接收到的每一对(键、值)调用/读取所有Map。在Hadoop框架上实现它的最佳方式是什么？我可以通过读取输入n次或将输入加载到HashMap中来以编程方式执行此操作，但我认为在MapReduce范例中可能会完成这一切。感谢您的帮助/提示!编辑:更多细节，我有(作为其他工作的结果)问题空间分区列表(索引，计数)并希望作为输出(索引，sumOfNearestNeighborsCounts)，所以对于

algorithm - 用于从图中删除循环的 Map Reduce 算法

这question对于检测有向图中的循环有一个很好的答案。不幸的是，制作它的MapReduce版本似乎并不容易。具体来说，我对用于从有向图中删除循环的MapReduce算法感兴趣。我已经使用广度优先搜索(BFS)算法进行了评估，但我看到的一个问题是可能会同时删除两个不同的边以切断一个循环。这种情况的影响是可以删除太多边。重要的是删除循环，同时尽量减少删除的边数。有证明的方案优先!谢谢。最佳答案您需要一个迭代mapreduce来实现这个算法。参见http://www.iterativemapreduce.org/对于以迭代mapr

hadoop - Map Reduce 保持输入顺序

我尝试使用hadoop实现一个处理文本文件的应用程序。问题是我无法保持输入文本的顺序。有什么方法可以选择哈希函数吗？这个问题可以通过分配分区轻松解决输入到每个映射器，然后将分区发送到reducers。这可以用hadoop实现吗？最佳答案 MapReduce的基本思想是，事情完成的顺序是无关紧要的。所以你不能(也不需要)控制以下顺序:输入记录通过映射器。键和相关值通过缩减器。您唯一可以控制的是值在迭代器中的放置顺序，该顺序在缩减器中可用。这是使用称为“二级排序”的结构完成的。thisterm的简单谷歌操作导致您可以继续的几个点。我喜

hadoop - 为什么要对 map reduce 中生成的中间键进行 SORT？

我理解为什么中间键值按键分组但为什么要对它们进行排序？最佳答案分组就是这样实现的。当您按键排序时，它们会组合在一起。它是否已排序并不重要……重要的是相同的键彼此相邻。排序可能不是最好的方法。也许某种哈希算法会更快:O(N)而不是O(NlogN)。它被实现为排序只是因为有一些应用程序需要排序的键(例如HBase/BigTable)。最近开发了一种可插入排序，并且在测试版中可用。我还没有机会尝试一下。http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop

python - 如何具体确定MRJob中每个 map 步骤的输入？

我正在处理map-reduce作业，包含多个步骤。使用mrjob每一步都会接收前一步的输出。问题是我不想这样。我想要的是提取一些信息并在第二步中使用它来处理所有输入等等。是否可以使用mrjob执行此操作？注意:由于我不想使用emr，thisquestion对我帮助不大。更新:如果不可能在一项工作中做到这一点，我需要在两个不同的工作中完成。在这种情况下，有什么办法可以包装这两个作业并管理中间输出等？最佳答案您可以使用Runners您必须单独定义作业并使用另一个python脚本来调用它。fromNumLinesimportNumLi

json转换（json与对象互转、json与list互转、JSONObject与Map互转）

目录一、json与对象互转1、json转自定义对象2、json字符串转JSONObject二、json与list互转1、list转JsonArray类型字符串2、JsonArray类型字符串转list三、JSONObject与Map互转1、Map转JSONObj一、json与对象互转1、json转自定义对象Useruser=JSONUtil.toBean(jsonStr/jsonObj,User.class);//hutoolUseruser=JSON.parseObject(jsonStr,User.class);//com.alibaba.fastjsonUseruser=JSONObje

python - 将python协同过滤代码转换为使用Map Reduce

我使用Python计算项目之间的余弦相似度。给定表示购买(用户、项目)的事件数据，我有一个由我的用户“购买”的所有项目的列表。给定这个输入数据(user,item)X,1X,2Y,1Y,2Z,2Z,3我建立了一个python字典{1:['X','Y'],2:['X','Y','Z'],3:['Z']}从那个字典中，我生成了一个购买/未购买矩阵，也是另一个字典(bnb)。{1:[1,1,0],2:[1,1,1],3:[0,0,1]}从那里开始，我通过计算(1,1,0)和(1,1,1)之间的余弦来计算(1,2)之间的相似度，得到0.816496我这样做是为了:items=[1,2,3]fo