草庐IT

mapReduce

全部标签

java - hadoop mapreduce 给出子错误

我在ubuntu13.10上使用hadoop1.2.1。我正在运行输入文件大小为25GB的排序问题。但是我收到错误:14/09/2912:42:47INFOmapred.JobClient:map51%reduce17%14/09/2912:44:08INFOmapred.JobClient:TaskId:attempt_201409291048_0003_m_000208_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)

hadoop - 何时实现 WritableComparable 以及何时扩展 WritableComparator

刚开始探索mapreduce,遇到了有compareTo()方法的Writablecomparable接口(interface)和有compare()方法的Writablecomparator,当我们写自己的CustomWritableclasses的时候,如果要实现的话应该在什么情况下使用我们自己的排序机制? 最佳答案 引用链接。很好的解释。https://vangjee.wordpress.com/2012/03/30/implementing-rawcomparator-will-speed-up-your-hadoop-ma

java - 自定义 InputFormat.getSplits() 从未在 Hive 中调用

我正在编写自定义InputFormat(具体来说,org.apache.hadoop.mapred.FileInputFormat的子类)、OutputFormat和SerDe,用于通过ApacheHive读取的二进制文件。并非二进制文件中的所有记录都具有相同的大小。我发现Hive的默认InputFormatCombineHiveInputFormat没有将getSplits委托(delegate)给我的自定义InputFormat的实现,这会导致所有输入文件按常规128MB边界拆分。这样做的问题是这个拆分可能在记录的中间,所以除了第一个之外的所有拆分很可能看起来有损坏的数据。我已经找

macos - mahout 0.9 和 hadoop 2.6 中线程 "main"java.lang.IncompatibleClassChangeError 中的异常

我正在尝试运行随机森林示例。我运行的命令是hadoopjarmahout-examples-0.9-job.jarorg.apache.mahout.classifier.df.mapreduce.BuildForest-Dmapred.max.split.size=1874231-dtestdata/KDDTrain+.arff-dstestdata/KDDTrain.info-sl5-p-t100-onsl-forest我遇到了这个错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundinterf

java - 为什么 Hadoop 无法在本地模式下找到这个文件,即使它存在?

通过maven在本地模式下运行Hadoop时出现此错误。15/03/2412:45:24INFOmapred.MapTask:Mapoutputcollectorclass=org.apache.hadoop.mapred.MapTask$MapOutputBuffer15/03/2412:45:24INFOmapred.MapTask:(EQUATOR)0kvi26214396(104857584)15/03/2412:45:24INFOmapred.MapTask:mapreduce.task.io.sort.mb:10015/03/2412:45:24INFOmapred.Map

algorithm - Hadoop MapReduce - 具有少量键和每个键许多值的 Reducer

Hadoop天生就是为处理大数据而创建的。但是,如果Mappers的输出也很大,太大而无法容纳Reducers内存,会​​发生什么情况?假设我们正在考虑要聚类的大量数据。我们使用一些分区算法,它会找到指定数量的元素“组”(簇),这样一个簇中的元素是相似的,但属于不同簇的元素是不同的。通常需要指定簇数。如果我尝试将K-means实现为最著名的聚类算法,一次迭代将如下所示:映射阶段-将对象分配到最近的质心Reducephase-根据集群中的所有对象计算新的质心但是如果我们只有两个集群会怎样?在那种情况下,大数据集将被分成两部分,并且只有两个键,每个键的值将包含大数据集的一半。我不明白的是-

java - hadoop mapreduce 无序元组作为映射键

基于Hadoop-权威指南中的wordcount示例,我开发了一个mapreduce作业来计算无序字符串元组的出现次数。输入看起来像这样(只是更大):abccddbaaddd运行mapreduce我希望输出是(对于这个例子):cc1dd1ab2ad1dd1这意味着,我希望元组a,b和b,a被认为是相同的。这个问题已经在这里问过:HadoopMapReduce:TwovaluesaskeyinMapper-Reducer可能在这里解决了https://developer.yahoo.com/hadoop/tutorial/module5.html#keytypes.对于大型输入文件,我得

r - 在 R 中运行 map reduce 作业时出错

我刚刚开始集成RHadoop。它是与Hadoop集成的R-studio服务器,但在运行map-reduce作业时出现错误。当我运行以下代码行时。library(rmr2)a堆栈跟踪:15/03/2421:13:47INFOConfiguration.deprecation:mapred.reduce.tasksisdeprecated.Instead,usemapreduce.job.reducespackageJobJar:[][/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar]/tmp/streamjob47

java - 不是来自测试 hadoop mapreduce wordcount 的有效 JAR

HadoopMapreduce的新手,我不确定为什么会收到此错误。我目前得到:NotavalidJAR:/nfsdata/DSCluster/home/user/bli1/wordcount/wc.jar这是我的过程:HDFS文件结构:/bli1/wordcountwc.jarWordCount.java/inputfile01/outputfile02在本地机器上创建WordCount.java和wc.jar与jarcfwc.jarWordCount.java在本地机器上创建file01和file02创建/input和/output/wordcount内的目录在hdfs中使用hdfs

java - hadoop mapreduce Mapper 从文本文件中读取不正确的值

我正在编写一个mapreduce程序来处理一个文本文件,将一个字符串附加到每一行。我面临的问题是映射器的map方法中的文本值不正确。每当文件中的一行小于前一行时,会自动将几个字符附加到该行以使该行的长度等于上一行的长度。映射方法参数如下*@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{*我正在记录map方法中的值并观察此行为。有什么指点吗?代码片段DriverConfigurationconfiguration=newCon