Mongo-Spark

hadoop - 在 Apache Spark 中使用 Reduce

我正在尝试使用Apachespark加载一个文件，并将该文件分发到我集群中的多个节点，然后聚合结果并获取它们。我不太明白该怎么做。根据我的理解，reduce操作使Spark能够组合来自不同节点的结果并将它们聚合在一起。我的理解正确吗？从编程的角度来看，我不明白我将如何编写这个reduce函数。我究竟如何将主数据集分成N个部分，并使用转换列表要求它们并行处理？reduce应该接受两个元素和一个将它们组合起来的函数。这两个元素应该是Spark上下文中的RDD，还是可以是任何类型的元素？另外，如果你有N个不同的分区并行运行，如何减少将它们的所有结果聚合为一个最终结果(因为reduce函数只聚

hadoop - Spark RDD : Get row number

如何从当前正在处理的RDD中获取行号:valrdd2=rdd1.filter(row=>{//getrownumber}true}) 最佳答案 valrdd2=rdd1.zipWithIndex.filter{case(row,index)=>{//rownumberisindex.(butisnotfixed,unlessRDDissorted)} 关于hadoop-SparkRDD:Getrownumber，我们在StackOverflow上找到一个类似的问题：

hadoop number section 行号 code apache-spark rdd

scala - 在 Spark RDD Println Error 中，如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序，它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

Println String 34 aaaa scala hadoop apache-spark hadoop-yarn rdd

hadoop - Apache Spark S3 错误

我正在尝试将amazons3连接到Sparkstreaming。我在本地机器上运行代码并尝试从s3流式传输到Spark，但出现以下错误:java.io.IOException:NoFileSystemforscheme:s3n你能帮我解决同样的问题吗？最佳答案您可以通过在您的spark上下文的hadoop配置中指定s3n方案的实现来解决它:sparkContext.hadoopConfiguration.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSys

hadoop Apache section code hadoopConfiguration amazon-s3 apache-spark bigdata spark-streaming

scala - 如何在现有的 Hadoop 2.x 中使用 spark

我们已经在服务器上安装了Hadoop2.5。是不是可以用那个Hadoop来部署Spark程序呢？我希望Spark使用现有的Yarn来调度任务，并能够读写现有的HDFS。我怎样才能做到这一点？最佳答案您可以尝试使用可用的ApacheSpark预构建下载https://spark.apache.org/downloads.html如果那没有解决，那么你需要通过添加你的hadoopjar来构建sparkhttps://spark.apache.org/docs/latest/building-spark.html很简单然后您的Spar

何在 Hadoop spark https section scala apache-spark bigdata

hadoop - 启动 Spark REPL 时出错

我有预构建的Spark1.4.1，我正在运行HDP2.6。当我尝试运行spark-shell时，它会给我一条错误消息，如下所示。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/fs/FSDataInputStreamatorg.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:111)atorg.apache.spar

时出 hadoop SparkSubmitArguments java URLClassLoader apache-spark hadoop-yarn

hadoop - 如何使用 hive/spark-sql 生成大数据集？

例如生成序号在1到1G之间的1G记录。最佳答案创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中，因此位于不同的HDFS目录中，更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

大数 spark-sql strong section code hadoop apache-spark hive apache-spark-sql hiveql

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近，我接到一个任务，要在一个集群上安装Spark2.1.0，该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0，因为它是最新版本，与RSpark等具有更好的兼容性。我在互联网上搜索了几天，只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

hadoop Ambari Spark section apache-spark cluster-computing hortonworks-data-platform

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

amp aggregate section code Spark hadoop apache-spark relational-database apache-spark-sql non-relational-database

hadoop - 在单节点上运行 Spark on YARN

我正在学习一些数据科学，我正在尝试发现和理解与之相关的各种工具。到目前为止，我已经在MacOS上成功安装了Hadoop2.8.0，现在我想让Spark2.1.1也能正常工作。我知道Spark不一定需要Hadoop环境才能工作，但我也知道让它在YARN上运行对于与其他应用程序共享数据很有用。在网上阅读了不同的指南和建议后，这就是我所做的:在Hadoop配置文件中，我在yarn-site.xml中添加:yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.c

hadoop Spark scala apache at apache-spark hadoop-yarn

52 53 545556 57 58