草庐IT

task_info

全部标签

hadoop - Spark Map Task 内存消耗巨大

我有很多包含大约60.000.000行的文件。我所有文件的格式都是{timestamp}#{producer}#{messageId}#{data_bytes}\n我一个一个地浏览我的文件,还想为每个输入文件构建一个输出文件。因为有些台词依赖于以前的台词,所以我将它们按制作人分组。每当一行依赖于一个或多个先前的行时,它们的生产者总是相同的。对所有行进行分组后,我将它们交给我的Java解析器。然后,解析器会将所有已解析的数据对象包含在内存中,然后将其输出为JSON。为了可视化我认为我的作业是如何处理的,我拼凑了以下“流程图”。请注意,我没有可视化groupByKey-Shuffeling

python - map task 数量和拆分大小

我想做什么我是hadoop的新手,我尝试使用不同数量的映射器和缩减器多次执行MapReduce,并比较执行时间。文件大小约为1GB,我没有指定拆分大小,因此它应该是64MB。我正在使用一台有4个内核的机器。我做了什么mapper和reducer是用python写的。所以,我正在使用hadoop流媒体。我通过使用'-Dmapred.map.tasks=1-Dmapred.reduce.tasks=1'指定了map任务和reduce任务的数量问题因为我指定使用1个map任务和1个reduce任务,我预计只会看到一次尝试,但实际上我有38次map尝试和1个reduce任务。我阅读了与此问题类

hadoop - hbase 错误 : "10/12/26 06:48:07 INFO ipc.HbaseRPC: Server at/127.0.0.1:58920 could not be reached after 1 tries, giving up."

有人知道hbase有什么问题吗?我正在为hadoop使用cloudera发行版的vm图像,以前它工作正常但现在当我尝试列出所有表时每秒都会给我这个错误:10/12/2606:48:07信息ipc.HbaseRPC:尝试1次后无法访问位于/127.0.0.1:58920的服务器,放弃。 最佳答案 我在Ubuntu11.10上遇到了同样的问题。默认安装在/etc/hosts中添加了一行,将我的机器主机名与IP127.0.1.1相关联。我将此链接更改为指向127.0.0.1,Hbase开始工作。此外,其他计算机上类似问题的解决方案要么禁用

hadoop - slots、map tasks、data splits、Mapper的区别和关系

我浏览了一些hadoop信息书籍和论文。Slot是节点上的map/reduce计算单元。它可能是map或减少插槽。据我所知,split是HDFS中的一组文件block,它们具有一定的长度和存储它们的节点位置。映射器是类,但是当代码被实例化时,它被称为映射任务。我对吗?maptasks、datasplits和Mapper之间的区别和关系我不清楚。关于调度我的理解是,当节点的映射槽空闲时,如果映射任务要处理的数据是节点,则从未运行的映射任务中选择并启动映射任务。谁能用上面的概念解释清楚:slots,mapper和maptask等。谢谢,阿伦 最佳答案

mysql - 高级 MySql 查询 : Update table with info from another table

我想用另一个表中的数据更新mySql中的一个表。我有两个表“人”和“业务”。人员表通过名为“business_id”的列链接到业务表。必要的表结构,主键加星号(表:列):人员:*business_id、*sort_order、电子邮件业务:*business_id、电子邮件我想用人员表中的电子邮件更新业务表电子邮件列,如下所示(我知道我在这里遗漏了一些东西):UPDATEbusinessbSETemail=(SELECTemailfromPeoplepwherep.business_id=b.business_idANDsort_order='1')WHEREb.email='';这有

mysql - 高级 MySql 查询 : Update table with info from another table

我想用另一个表中的数据更新mySql中的一个表。我有两个表“人”和“业务”。人员表通过名为“business_id”的列链接到业务表。必要的表结构,主键加星号(表:列):人员:*business_id、*sort_order、电子邮件业务:*business_id、电子邮件我想用人员表中的电子邮件更新业务表电子邮件列,如下所示(我知道我在这里遗漏了一些东西):UPDATEbusinessbSETemail=(SELECTemailfromPeoplepwherep.business_id=b.business_idANDsort_order='1')WHEREb.email='';这有

Hadoop 作业客户端 : Error Reading task output

我正在尝试在我的集群上处理40GB的维基百科英文文章。问题是以下重复错误消息:13/04/2717:11:52INFOmapred.JobClient:TaskId:attempt_201304271659_0003_m_000046_0,Status:FAILEDToomanyfetch-failures13/04/2717:11:52WARNmapred.JobClient:Errorreadingtaskoutputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_00

hadoop - mapreduce.task.io.sort.mb 的最大值是多少?

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少? 最佳答案 我知道这个问题很老了,但是对于那些提出相同问题的人,您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

hadoop - "Unable to load realm mapping info from SCDynamicStore"错误后跟 KrbException

我正在尝试在本地构建我的应用程序并收到以下错误:**UnabletoloadrealmmappinginfofromSCDynamicStore**2012-12-0318:13:23.910java[1172:707]***Terminatingappduetouncaughtexception'JavaNativeException',reason:'KrbException:CouldnotloadconfigurationfromSCDynamicStore'***Firstthrowcallstack:(0CoreFoundation0x00007fff919c30a6__e

hadoop - 文件 jobtracker.info 只能复制到 0 个节点,而不是 1 个

我正在尝试在Fedora17上设置Hadoop集群。当我给出/bin/star-all.sh命令时,守护进程开始在主节点和从节点上启动。但是当我在主节点上查看数据节点的日志文件时,我得到以下EROORERRORorg.apache.hadoop.security.UserGroupInformation:PriviledgedActionExceptionas:hadoop1cause:java.io.IOException:File/home/hadoop1/mapred/system/jobtracker.infocouldonlybereplicatedto0nodes,inst