草庐IT

mapReduce

全部标签

hadoop - Apache hive MSCK REPAIR TABLE 未添加新分区

我是ApacheHive的新手。在处理外部表分区时,如果我直接向HDFS添加新分区,则在运行MSCKREPAIR表后不会添加新分区。以下是我试过的代码,--创建外部表hive>createexternaltablefactory(namestring,empidint,ageint)partitionedby(regionstring)>rowformatdelimitedfieldsterminatedby',';--详细的表格信息Location:hdfs://localhost.localdomain:8020/user/hive/warehouse/factoryTableTy

java - 由于 Task attempt failed to report status 600 秒,reduce 失败。杀戮!解决方案?

作业的reduce阶段失败并显示:失败的Reduce任务超出了允许的限制。每个任务失败的原因是:任务attempt_201301251556_1637_r_000005_0未能报告状态达600秒。杀!问题详情:Map阶段接收格式为:time,rid,data的每条记录。数据的格式为:数据元素及其计数。例如:a,1b,4c,7对应一条记录的数据。映射器为每个数据元素输出每条记录的数据。例如:key:(time,a,),val:(rid,data)键:(时间,b,),val:(删除,数据)key:(time,c,),val:(rid,data)每一个reduce从所有的记录中接收同一个ke

hadoop - HDFS 错误放置 : `input' : No such file or directory

我已经安装了hadoop2.6.0,并且正在试用它。我正在尝试伪分布式设置,并按照http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Execution上的说明进行操作我卡在了第5步,即当我运行命令时bin/hdfsdfs-putetc/hadoopinput我收到以下错误。15/02/0200:35:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...u

hadoop - 使用 Hadoop 进行相似性连接

我是hadoop的新手。我想和你一起运行一些我想出的方法。问题:2个数据集:A和B。两个数据集都代表歌曲:一些顶级属性、标题(1..)、表演者(1..)。我需要根据标题和表演者使用等式或模糊算法(例如levenshtein、jaccard、jaro-winkler等)来匹配这些数据集。数据集大小为:A=20-30M,B~=1-6M。所以这里有我想出的方法:将数据集B(最小)加载到HDFS中。对数据集A(最大)使用mapreduce,其中:map阶段:对A中的每条记录访问HDFS,拉取记录B进行匹配;reduce阶段:写入id对以优化的形式将数据集A加载到分布式缓存(即jboss缓存)中

hadoop - 'distcp' 和 'distcp -update' 之间的区别?

有什么区别hadoopdistcp和hadoopdistcp-update他们都做同样的工作,只是我们称呼他们的方式略有不同。它们都不会覆盖目标中已经存在的文件。那么两组不同的命令有什么意义呢? 最佳答案 distcp和distcp-update之间的区别在于distcp默认情况下会跳过文件,而如果src大小与dst大小不同,“distcp-update”将更新文件。这在文档中有点困惑,因为distcp的默认特性是如果文件存在则跳过以防止冲突。来自文档:“如前所述,这不是“同步”操作。检查的唯一标准是源文件和目标文件的大小;如果它们

hadoop - 如何优化Hadoop作业中的混洗/排序阶段

我正在使用单节点hadoop作业进行一些数据准备。我工作中的映射器/组合器输出许多键(超过5M或6M),显然工作进行缓慢甚至失败。映射阶段最多可运行120个映射器,并且只有一个化简器(它们是自动确定的,我没有为它们设置任何值)。我想优化工作,以便更有效地进行改组/排序阶段。我将mapreduce.task.io.sort.mb增加到300m,但作业失败,因为它的值大于mapper堆。然后,我将mapred.child.java.opts设置为-Xmx1024m,但由于无法初始化输出收集器而再次失败。这些方案的最佳做法是什么? 最佳答案

hadoop - 现有 MapReduce 与 YARN (MRv2) 的区别

谁能告诉我,现有的MapReduce和YARN之间有哪些区别,因为我没有发现这两者之间所有明显的区别?P.S:我要求对这些进行比较。谢谢! 最佳答案 MRv1使用JobTracker创建任务并将其分配给数据节点,当集群扩展到足够大(通常大约4,000个节点)时,这可能成为资源瓶颈。MRv2(又名YARN,“YetAnotherResourceNegotiator”)每个集群都有一个资源管理器,每个数据节点都运行一个节点管理器。对于每个作业,一个从节点将充当ApplicationMaster,监控资源/任务等。

hadoop - 实际上,您需要多少台机器才能让 Hadoop/MapReduce/Mahout 加速非常可并行化的计算?

我需要进行一些繁重的机器学习计算。我在LAN上有少量闲置的机器。我需要多少台机器才能使用hadoop/mapreduce/mahout来分配我的计算,以便比在没有这些分布式框架的单台机器上运行要快得多?这是一个计算开销与yield的实际问题,因为我假设仅在2台机器之间分配总时间会比不分配和简单地在一台机器上运行更糟糕(只是因为分配计算所涉及的所有开销)。技术说明:一些繁重的计算非常可并行化。所有这些都是只要每台机器都有自己的原始数据副本。 最佳答案 “普通”Java程序和基于Hadoop、基于MapReduce的实现是截然不同的野兽

hadoop - Map Reduce 输出到 CSV 还是我需要键值?

我的map函数产生一个键\t值值=列表(值1、值2、值3)然后我的reduce函数产生:Key\tCSV-Line例如2323232-2322fdsfs,sdfs,dfsfs,0,0,0,2,fsda,3,23,3,s,2323555-22222dfasd,sdfas,adfs,0,0,2,0,fasafa,2,23,s例。原始数据:232342|@3423@|34343|sfasdfasdF|433443|Sfasfdas|324343x1000无论如何,我想删除开头的key,这样我的客户就可以直接导入到mysql中。我有大约50个数据文件,我的问题是在它映射一次并且reducer启

hadoop - 从节点不在 Yarn ResourceManager 中

我设置了一个3节点ApacheHadoop集群。在主节点上,我可以看到[hadoop-conf]$jps16856DataNode17051SecondaryNameNode16701NameNode21601ResourceManager21742NodeManager18335JobHistoryServer在从属节点上,我看到了[fedora20-templatedfs]$jps28677Jps28510NodeManager27449DataNode我可以看到来自master:50070的三个事件节点。但是,在ResourceManagerWebUI(http://master