writes_草庐IT

hadoop - sqlContext.read...load() 和 sqlContext.write...save() 代码在 Spark Cluster 上运行在哪里？

我正在使用SparkDataframeAPI从NFS共享加载/读取文件，然后将该文件的数据保存/写入HDFS。我有一个包含一个主节点和两个工作节点的三节点Spark集群。我的Spark集群使用YARN作为集群管理器，因此两个工作节点是YARNNodeManager节点，主节点是YarnResourceManager节点。我有一个远程位置，比如/data/files，它安装到所有三个YARN/SPARK节点，因为它是[/data/files]，其中存在我想要读取的所有csv文件[多个]从并最终写入HDFS。我在我的主节点上运行以下代码importjava.io.Fileimportorg

sqlContext Cluster String 34 fileFormat hadoop apache-spark apache-spark-sql spark-dataframe hadoop2

java - MAPREDUCE 错误 : method write in interface TaskInputOutputContext<KEYIN, VALUEIN、KEYOUT、VALUEOUT> 无法应用于给定类型

packagebr.edu.ufam.anibrata;importjava.io.*;importjava.util.ArrayList;importjava.util.Collections;importjava.util.Iterator;importjava.util.List;importjava.util.StringTokenizer;importjava.util.Arrays;importjava.util.HashSet;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoop.conf.Co

给定 TaskInputOutputContext import 34 class java hadoop mapreduce

java - 在 Hadoop 中使用 context.write() 或 outputCollector.collect() 写入输出的成本？

我刚刚开始学习Hadoop，并且仍在尝试和尝试理解事物，我真的很好奇OutputCollector类collect()方法的用法，从现在开始我找到的所有示例都只调用此方法一次。如果这种方法的调用成本真的很高(因为它正在将输出写入文件)？在考虑不同的场景时，我遇到了我发现需要不止一次调用它的情况。同样明智的是下面是给定的代码片段publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvoidreduce(IntWritablekey,Iteratorvalues,OutputCollectoroutput,Re

outputCollector context code Text section java hadoop mapreduce processing-efficiency

hadoop - Shuffle write 大和 spark task 变得超慢时的优化

有一个SparkSQL将连接4个大表(前3个表5000万，最后一个表2亿)并进行一些分组操作，消耗60天的数据。并且此SQL将需要2小时才能运行，在此期间，我检查到ShuffleWrite正在急剧增加，可能会超过200GB。相比之下，当我将消耗日期范围从60天减少到45天时，运行只需要6.3分钟。我查看了DAG图，对于45天的数据，它在最后一次sortMergeJoin之后输出了10亿条数据。谁能告诉我我可以从哪个方向优化这个场景？谢谢!附言可能的相关信息:Spark.version=2.1.0spark.executor.instances=20spark.executor.memo

Shuffle hadoop section spark li apache-spark hive

java - 可以覆盖 ReduceContext 中的 context.write() 方法吗？

使用0.20.2...是否可以覆盖ReduceContext中的context.write()方法？我有一整套Reducers，我希望在每个context.write()之前都使用一个特定的函数，但我不想让他们担心这个逻辑，只是为了处理它透明地。例如:Iteratorvit=values.iterator();if(trans2!=null){key=(Text)trans2.transform(key);}while(vit.hasNext()){Textitem=vit.next();if(trans1!=null){item=(Text)trans1.transform(item

ReduceContext context code write section java hadoop mapreduce

hadoop - 自定义 hadoop 键和值 : How to write CompareTo() Method

我需要从映射器发出一个二维double组作为键和值。StackOverflow中发布了问题，但没有得到解答。我在给定的数据集中做一些矩阵乘法，之后我需要发出A*Atrns的值，它将是一个矩阵作为键和Atrans*D这也将是一个矩阵作为值。那么如何从映射器发出这些矩阵。并且该值应该与key本身相对应。iekey----->A*Atrans--------->aftermultiplicationtheresultwillbea2Darraywhichisdeclaredasdouble(matrix)letssaytheresultbeMatrix"Ekey"(double[][]Eke

自定 hadoop value code length mapreduce

hadoop - 什么是 "HDFS write pipeline"？

当我阅读hadoop权威指南时，我停留在以下句子:-writingthereduceoutputdoesconsumenetworkbandwidth,butonlyasmuchasanormalHDFSwritepipelineconsumes.问题:1.能否帮助我更详细地理解上面的句子。2.“HDFS写入管道”是什么意思？最佳答案当文件被写入HDFS时，许多与HDFSblock一致性和复制相关的事情正在幕后发生。这个过程的主要IO组件是far复制。还有与注册block的存在和状态的名称节点的双向通信。我认为当它说“写入管道”

amp pipeline section HDFS li hadoop

hadoop - 如何在 context.write(k,v) 中输出值

在我的mapreduce工作中，我只想输出一些行。但是如果我这样编码:context.write(data,null);程序将抛出java.lang.NullPointerException。我不想像下面这样编码:context.write(data,newText(""));因为我必须修剪输出文件中每一行的空格。有什么好的方法可以解决吗？提前致谢。对不起，是我的错。我仔细检查了程序，发现原因是我将Reducer设置为combiner。如果我不使用组合器，声明context.write(数据，空)；在reducer中工作正常。在输出数据文件中，只有数据线。分享来自hadoop权威指南的

何在 context NullWritable section hadoop mapreduce output

hadoop - HDFS 性能差 : "Slow BlockReceiver write packet to mirror"

我想在新硬件堆栈上实例化另一个新Hadoop集群时提交一个奇怪的行为。一旦一切都安装好了，只要我们尝试在HDFS上执行任何I/O操作，我们就可以在数据节点日志中看到许多这样的消息:15/01/1422:13:07WARNdatanode.DataNode:SlowBlockReceiverwritepackettomirrortook6339ms(threshold=300ms)15/01/1422:13:26INFODataNode.clienttrace:src:/10.10.5.7:17276,dest:/10.10.5.4:50010,bytes:176285,op:HDFS_

BlockReceiver amp code section li hadoop io hdfs

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive