sparking

scala - 我如何更改 Apache Spark 上的数据位置

我在Spark中遇到数据局部性问题。我想知道我是否有可能告诉Spark应该如何在节点上对数据进行分区。比如我在HDFS上有一个文件，我想获取一个RDD。我想根据此数据的特定属性(例如，根据此数据最后一列的值)对该数据进行分区。提前致谢最佳答案这种行为由您正在创建的RDD子类控制，在您的示例中是Haddoop或NewHadoopRDD，具体取决于您使用的是哪种HadoopAPI。在每个RDD子类中，您可以覆盖getPreferedLocations方法，该方法说明每个分区的计算位置。正如@user52045所说，您可以实现自定义分

Apache scala section 中设据此 hadoop apache-spark

hadoop - 使用 Apache Spark 在 HDFS 中存储多个文件

我正在做一个涉及使用HDFS进行存储和使用ApacheSpark进行计算的项目。我在HDFS中有一个目录，其中有几个相同深度的文本文件。我想使用Spark处理所有这些文件，并将它们相应的结果存储回HDFS，每个输入文件有1个输出文件。例如-假设我有一个目录，其中包含1000个相同深度的文本文件。我正在使用通配符读取所有这些文件sc.wholeTextFiles(hdfs://localhost:9000/home/akshat/files/*.txt)然后我使用Spark处理它们并获得相应的RDD并使用保存它result.saveAsTextFile("hdfs://localhost

hadoop Apache output filename String apache-spark hdfs

hadoop - JavaPairRDD Spark 方式实现 Hadoop Map

我有一个RDD:JavaPairRDDmyRDD这是通过newAPIHadoopRDD方法创建的。我有一个现有的map功能，我想以Spark方式实现它:LongWritableone=newLongWritable(1L);protectedvoidmap(Longkey,ViewRecordviewRecord,Contextcontext)throwsIOException,InterruptedException{Stringurl=viewRecord.getUrl();longday=viewRecord.getDay();tuple.getKey().set(url);tu

JavaPairRDD hadoop code section viewRecord apache-spark

python - Apache Spark 将哪些数据传送到执行节点

我使用ApacheSpark来查找以太网通信中的模式/攻击。我担心Spark发送到YARN/Hadoop执行节点的数据量。我在我的map函数中使用了Scapy(见下面的代码)。如果它没有安装在执行节点上，Spark会把整个模块发送给它们吗？或者在这种情况下任务不会被执行？还是以失败告终？有什么办法可以控制这种行为吗？如果我的map函数访问任何全局对象会发生什么？元素是否运送给worker？或者有某种错误/意外行为？这是一个示例代码:#!/usr/bin/pythonfrompysparkimportSparkContext,SparkConfdefExtractIP(rawEther)

据传送到 code section SparkContext python hadoop apache-spark scapy pyspark

hadoop - Spark 作业中的 Kryo 序列化错误

我想在Spark作业中使用Kryo序列化。publicclassSerializeTest{publicstaticclassTotoimplementsSerializable{privatestaticfinallongserialVersionUID=6369241181075151871L;privateStringa;publicStringgetA(){returna;}publicvoidsetA(Stringa){this.a=a;}}privatestaticfinalPairFunctionWRITABLE_CONVERTOR=newPairFunction(){p

hadoop Spark apache SequenceFile java apache-spark kryo

scala - 使用 Scala 在 Spark 中进行 ETL 处理

我正在使用scala在Spark中执行ETL过程。原始日志文件包含两列名称和年龄。我的ETL过程读取并验证原始日志并生成另外两列，即标志和验证消息。标志列指定行是否有效。(如果行有效=1否则为0)验证列指定行无效的原因。例。原始日志文件RAM,35SAM,45JAM,ww这里最后一行无效所以我的最终输出将是RAM,35,1,""SAM,45,1,""JAM,ww,0,"invalidage"我的scala代码是importsqlContext._valpeople=sc.textFile("hdfs://..../rawT.csv").map(_.split(","))valbase_

中进 scala 34 code people hadoop apache-spark

java - Spark 中的序列文件 - 读写自定义

我们有一个早期构建在Hadoop上的数据管道。但现在我们正在尝试将我们的一些应用程序移植到Spark。在我们的数据管道中，我们使用序列文件作为每个阶段的OP，并将其传递到下一阶段。因此，已经为Hadoop编写了自定义类，它们实现了可写接口(interface)来存储这些数据。如果我试图通过创建该类的对象并将其保存为序列文件来在Spark中使用它，我会收到类似这样的错误Text/IntWritable或任何其他不可序列化的可写类。有什么方法可以使用这些自定义类将序列文件保存在Spark中。该类已经存在于Java中，我不想修改它们示例示例publicclassAbcimplementsWr

自定 Spark code section java scala hadoop apache-spark

hadoop - 要下载哪个版本的 Spark？

我知道您可以下载Spark源代码(1.5.1)，或为各种Hadoop版本预构建的二进制文件。截至2015年10月，Spark网页http://spark.apache.org/downloads.html具有针对Hadoop2.6+、2.4+、2.3和1.X的预构建二进制文件。我不确定要下载哪个版本。我想使用AWS机器以独立模式运行Spark集群。我将运行一个24/7流媒体流程。我的数据将来自Kafka流。我考虑过使用spark-ec2，但由于我已经拥有持久的ec2机器，所以我想我还是使用它们为好。我的理解是，由于我坚持不懈的工作人员需要执行checkpoint()，它需要能够访问某种

hadoop Spark blockquote noreferrer noopener amazon-web-services amazon-s3 apache-spark

csv - 将读取 CSV 文件发送到 Spark

我正在尝试将CSV文件加载到HDFS并将其作为RDD读入Spark。我正在使用HortonworksSandbox并通过命令行尝试这些。我加载数据如下:hadoopfs-putdata.csv/如以下命令所示，数据似乎已正确加载:[root@sandboxtemp]#hadoopfs-ls/data.csv-rw-r--r--1hdfshdfs700854962015-10-0414:17/data.csv在pyspark中，我尝试按如下方式读取此文件:data=sc.textFile('/data.csv')但是，下面的take命令会抛出一个错误:data.take(5)Traceb

Spark csv section code data hadoop apache-spark hdfs

hadoop - 值 avro 不是 org.apache.spark.sql.DataFrameReader 的成员

我正在使用cloudera5.4.1和spark1.3.0这段代码是我写的valpath="/input/"valconf=newSparkConf().setAppName("FormSubmissions")valsc=newSparkContext(conf)valsqlConf=newSQLContext(sc)valdf=sqlConf.read.avro(path)df.foreach(println)这是我的sbt文件name:="SparkAvro"version:="1.0"scalaVersion:="2.10.4"libraryDependencies++=Seq

DataFrameReader hadoop 34 spark section apache-spark apache-spark-sql avro

221 222 223224225 226 227