草庐IT

java - Spark : Technical terminology for reduce elements on the run-time?

在下面的字数统计示例中:(Hello,1)(Hello,1)(Hello,1)(Hello,1)(Hello,1)Hadoop的reducer函数会收集所有5个键为“Hello”的元素,然后在reducer函数中进行聚合。但是在Spark中,实际上是每次减少2个元素。比如把第一个和第二个(Hello,1)组合成(Hello,2),把第三个和第四个(Hello,1)组合成(Hello,2)……等等(当然,真实情况可能是在不同的顺序)。那么有专门的术语来描述Spark中使用的这种计算方法吗?谢谢! 最佳答案 它不一定以这种方式聚合值。您

hadoop - 自定义分区程序与 MultipleOutputFormat

我是mapreduce的新手,我想知道使用自定义分区器根据特定条件创建多个输出与Mapreduce中的MultipleOutputs概念有什么区别。 最佳答案 使用自定义分区,您会将数据发送到不同的reducer,每个reducer将写入一个文件,其中包含由它处理的所有数据。part-r-00001,part-r-00002...使用MiltipleOutputs,每个reducer都可以使用自定义名称写入不同的文件(多个输出)。Tag1-r-00001,Tag2-r-00001,Tag1-r-00002,Tag2-r-00002.

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件,然后通过hive将其作为外部表读取。在编写Parquet文件时,我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201,萨蒂什,25岁1202,克里希纳,28岁1203,阿米斯,39岁1204,贾韦德,231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

hadoop - 人类可读格式的cloudera hadoop集群上的剩余空间

我正在寻找一个命令来显示hadoop集群上剩余空间的人类可读形式。我在这个论坛上找到了一个命令,输出在图像中。hdfsdfsadmin-报告[dfsadmin命令的输出][1]我听说hortonworks中还有另一个命令可以提供更易读的输出。该命令是hdfsdfsadmin-report该命令似乎不适用于cloudera。cloudera中是否有任何等效命令?非常感谢 最佳答案 不管您使用的是Cloudera还是Hortonworks。如果您使用的是旧版本的hadoop,则命令可能是hadoopdfsadmin-report。您还有

xml - 如何使用 StreamXmlRecordReader 解析单个文件中的单行和多行 xml 记录

我有一个输入文件(txt)如下val1||val2||val3||val4-c-1val4-c-2val-d-1如果仔细观察输入,第三个'||'后面的xml数据记录分为两行。我想用hadoopstreaming的StreamXmlRecordReader来解析这个文件-inputreader"org.apache.hadoop.streaming.StreamXmlRecordReader,begin=,end=,slowmatch=true我无法解析第三条记录。我收到以下错误Traceback(mostrecentcalllast):File"/home/rsome/test/cod

hadoop - 在 yarn 集群上安装 spark

我正在寻找有关如何在现有虚拟yarn集群上安装spark的指南。我有一个由两个节点组成的yarn集群,运行了map-reduce作业,效果很好。在日志中查找结果,一切正常。现在我需要在我的vagrantfile中添加spark安装命令和配置文件。我找不到好的指南,有人可以给我一个好的链接吗?我将这个指南用于yarnclusterhttp://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation提前致谢!

hadoop - 从配置单元中删除表不起作用

我想从表A中删除列c大于表B的列c的行我试过了delete*fromAwhereA.p>=(selectmax(t.c)fromBt)但它不起作用。我怎样才能做到这一点? 最佳答案 INSERT...VALUES、UPDATE和DELETE语句需要hive-site.xml配置文件中的以下属性值:hive.enforce.bucketingtruehive.exec.dynamic.partition.modenonstrict更新相应的hive-site.xml中的配置后,重新启动服务–HiveServer2和HiveMetast

python - 如何在 flatMap 函数中实现迭代

我正在将多行记录文本文件读入RDD。底层数据是这样的TimeMHist::852-YF-0072016-05-1000:00:0002016-05-0923:59:0002016-05-0923:58:000TimeMHist::852-YF-0082016-05-1000:00:0002016-05-0923:59:0002016-05-0923:58:000不,我想转换RDD,以便获得键映射(时间戳、值)。这可以分几个步骤完成。但我只想在一次调用中提取该信息(但在Python2.7中不是3)。RDD是这样的:[(0,u''),(12,u'852-YF-007\t\r\n2016-0

java - 平均 map 减少

我正在尝试计算hadoop独立设置中的平均数字。我无法运行该程序。但是程序编译没有任何错误,并且还创建了jar文件。我想我正在使用正确的命令在hadoop设置中执行程序。有人请查看我的代码并告诉我是否有任何问题。这是我的代码importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.ap

hadoop - SQOOP导入失败,找不到文件异常

我是hadoop架构系统的新手,使用网络搜索安装组件。为此,我安装了Hadoop、sqoop、hive。这是我安装的目录结构(我的本地ubuntu机器和任何虚拟机,我的每个安装都在单独的目录中):-/usr/local/hadoop/usr/local/sqoop/usr/local/hive通过查看错误,我尝试解决它,因此我将sqoop(本地计算机/usr/local/sqoop)文件夹复制到hdfs目录(hdfs://localhost:54310/usr/local/sqoop)。这解决了我的问题。我想从这里了解一些事情:-在将我的sqoop复制到hdfs之前,我的安装是否正确?