RDD

java - 如何在spark RDD(JavaRDD)中获取记录的文件名

我正在使用JavaRDD加载多个文件JavaRDDallLines=sc.textFile(hdfs://path/*.csv);加载文件后，我修改了每条记录并想保存它们。但是，我还需要将原始文件名(ID)与记录一起保存，以备将来引用。无论如何，我可以从RDD中的单个记录中获取原始文件名吗？谢谢最佳答案您可以尝试执行以下代码段中的操作:JavaPairRDDjavaPairRDD=sc.newAPIHadoopFile("hdfs://path/*.csv",TextInputFormat.class,LongWritable.

何在 JavaRDD String Tuple2 Tuple java hadoop apache-spark hdfs

scala - 值 toDS 不是 org.apache.spark.rdd.RDD 的成员

我正在尝试编写将RDD转换为数据集的示例ApacheSpark程序。但是在那个过程中，我遇到了编译时错误。这是我的示例代码和错误:代码:importorg.apache.spark.SparkConfimportorg.apache.spark.rdd.RDDimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.DatasetobjectHello{caseclassPerson(name:String,age:Int)defmain(args:Array[String]){valconf=newSparkConf(

apache scala code spark hadoop apache-spark dataset rdd

scala - 如果 RDD 无法装入 Spark 中的内存会怎样？

这个问题在这里已经有了答案:WhatwillsparkdoifIdon'thaveenoughmemory?(3个答案)关闭5年前。据我所知，Spark会尝试在内存中进行所有计算，除非您使用磁盘存储选项调用persist。但是，如果我们不使用任何持久化，当RDD不适合内存时，Spark会做什么？如果我们有非常庞大的数据怎么办。Spark将如何处理它而不会崩溃？

scala Spark section notice 中进 hadoop apache-spark bigdata

java - 在 RDD 方法/闭包中使用 SparkContext hadoop 配置，例如 foreachPartition

我正在使用Spark读取一堆文件，对它们进行详细说明，然后将它们全部保存为序列文件。我想要的是每个分区有1个序列文件，所以我这样做了:SparkConfsparkConf=newSparkConf().setAppName("writingHDFS").setMaster("local[2]").set("spark.streaming.stopGracefullyOnShutdown","true");finalJavaSparkContextjsc=newJavaSparkContext(sparkConf);jsc.hadoopConfiguration().addResourc

foreachPartition SparkContext Configuration code the java hadoop apache-spark rdd

python - Pyspark:洗牌 RDD

我试图随机化RDD中元素的顺序。我目前的方法是使用由打乱后的整数组成的RDD压缩元素，然后通过这些整数进行连接。但是，pyspark仅使用100000000个整数就失败了。我正在使用下面的代码。我的问题是:是否有更好的方法来压缩随机索引或以其他方式随机播放？我试过按随机键排序，虽然有效，但速度很慢。defrandom_indices(n):"""returnaniterableofrandomindicesinrange(0,n)"""indices=range(n)random.shuffle(indices)returnindicespyspark中发生以下情况:UsingPyth

洗牌 Pyspark random code section python hadoop apache-spark bigdata

python - 限制大 RDD

我正在阅读许多图像，我想处理其中的一小部分以进行开发。因此，我试图了解如何spark和python可以做到这一点:In[1]:d=sqlContext.read.parquet('foo')In[2]:d.map(lambdax:x.photo_id).first()Out[2]:u'28605'In[3]:d.limit(1).map(lambdax:x.photo_id)Out[3]:PythonRDD[31]atRDDatPythonRDD.scala:43In[4]:d.limit(1).map(lambdax:x.photo_id).first()//stillrunning

python RDD code limit section hadoop apache-spark pyspark distributed-computing

scala - 在 Spark/Scala 中将 RDD 转换为数据帧

RDD以Array[Array[String]]格式创建并具有以下值:valrdd:Array[Array[String]]=Array(Array("4580056797","0","2015-07-2910:38:42","0","1","1"),Array("4580056797","0","2015-07-2910:38:43","0","1","1"))我想用模式创建一个数据框:valschemaString="callIdoCallIdcallTimedurationcalltypeswId"后续步骤:scala>valrowRDD=rdd.map(p=>Array(p(0

scala Spark code 34 hadoop apache-spark

apache-spark - Spark 将数据拉入 RDD 或数据框或数据集中

当spark通过驱动程序拉取数据时，以及当spark不需要通过驱动程序拉取数据时，我试图用简单的术语来说明。我有3个问题-假设您有一个20TB的平面文件存储在HDFS中，您可以使用相应库的开箱即用函数(sc.textfile(path)或sc.textfile(path).toDF等)。如果驱动只用32GB内存运行，会不会导致驱动程序OOM？或者至少换掉司机吉姆？或者spark和hadoop是否足够智能，可以将数据从HDFS分发到spark执行器中，从而在不通过驱动程序的情况下生成数据帧/RDD？与1完全相同的问题，但来自外部RDBMS？除了来自特定节点文件系统(仅Unix文件系统，2

apache-spark apache section code HDFS hadoop apache-spark-sql data-ingestion

scala - 在 spark-streaming 上下文中将 RDD 写入 HDFS

我有一个带有spark1.2.0的spark流环境，我从本地文件夹中检索数据，每次我发现一个新文件添加到该文件夹时，我都会执行一些转换。valssc=newStreamingContext(sc,Seconds(10))valdata=ssc.textFileStream(directory)为了对DStream数据进行分析，我必须将其转换为数组vararr=newArrayBuffer[String]();data.foreachRDD{arr++=_.collect()}然后我使用获得的数据提取我想要的信息并将它们保存在HDFS上。valmyRDD=sc.parallelize

spark-streaming streaming code section spark scala hadoop apache-spark hdfs

hadoop - 如何获取第n行的Spark RDD？

假设我有一个任意对象的RDD。我希望获得RDD的第10(比如说)行。我该怎么做？一种方法是使用rdd.take(n)然后访问第n个元素是对象，但是当n很大时这种方法很慢。最佳答案我不知道它有多少效率，因为它取决于Spark引擎当前和future的优化，但您可以尝试执行以下操作:rdd.zipWithIndex.filter(_._2==9).map(_._1).first()第一个函数将RDD转换为一对(value,idx)，其中idx从0开始。第二个函数采用idx==9的元素(第10个)。第三个函数采用原始值。然后返回结果。第

hadoop Spark section strong stackoverflow apache-spark rdd

21 22 232425 26 27