RDD_草庐IT

python - 在 Pyspark rdd 中更改 saveAsTextFile 选项中的分隔符

我的数据集在HDFS中可用。我正在阅读它并执行过滤操作。dir=sc.textFile('/datasets/DelayedFlights.csv').filter(lambdax:int(x.split(',')[24])==1).map(lambday:y.split(','))Theoutputofaboveoperationis[u'1763',u'2008',u'1',u'3',u'4',u'922.0',u'915',u'',u'1050',u'WN',u'1069',u'N630WN',u'',u'95.0',u'',u'',u'7.0',u'SAN',u'SMF',u'

saveAsTextFile Pyspark 39 section 制表符 python hadoop apache-spark rdd

scala - java.lang.NoSuchMethodError 当 rdd.saveAsTextFile 由 spark-shell

parallelize整数并尝试保存为文本文件，如下所示:scala>valtest=sc.parallelize(List(12,2,3,4))test:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[0]atparallelizeat:24另存为文本文件scala>test.saveAsTextFile("/test")如下所示的错误堆栈跟踪:java.lang.NoSuchMethodError:org.apache.hadoop.mapred.TaskID.(Lorg/apache/hadoop/mapreduce/Job

NoSuchMethodError saveAsTextFile PairRDDFunctions apache scala hadoop apache-spark

python - 在 PySpark 中使用 rdd.map 对字符串进行 Unpickling 和编码

我需要将代码从PySpark1.3移植到2.3(也仅在Python2.7上)并且我在rdd上有以下映射转换:importcPickleaspickleimportbase64path="my_filename"my_rdd="rddwithdata"#pyspark.rdd.PipelinedRDD()#savingRDDtoafilebutfirstencodingeverythingmy_rdd.map(lambdaline:base64.b64encode(pickle.dumps(line))).saveAsTextFile(path)#anothermy_rdd.mapdoi

Unpickling PySpark section rdd code python hadoop encoding

hadoop - 如何在 spark 上的 hive 中设置 spark RDD StorageLevel？

在我的hiveonspark作业中，出现此错误:org.apache.spark.shuffle.MetadataFetchFailedException:缺少shuffle0的输出位置感谢您的回答(WhydoSparkjobsfailwithorg.apache.spark.shuffle.MetadataFetchFailedException:Missinganoutputlocationforshuffle0inspeculationmode?)，我知道这可能是我的hiveonspark作业有同样的问题由于hive将sql转换为hiveonspark作业，我不知道如何在hive

中设 spark section apache hadoop apache-spark hive hiveql

java - RDD 的最后一项未保存到 HDFS

我是Spark的新手，目前正在做一些在4个Sparkworker上运行的基本ETL，从外部源读取项目，然后将它们保存到HDFS。奇怪的是，我的HDFS结果中缺少项目。因为我需要遵循某些文件系统约定，所以我想将项目拆分到单独的存储桶中并将它们保存在单独的子文件夹中(我知道我在这里降低了性能):Listsources;//somelistofstringsJavaRDDtaskList;//alotoftasksforeachsourceJavaRDDitems=taskList.map(task->newExtractor().execute(task));for(Stringsourc

java HDFS code section sources hadoop apache-spark hadoop-yarn

hadoop - Spark RDD 操作

假设我在CSV文件中有一个包含两列A和B的表格。我从A列[Maxvalue=100]中选择最大值，我需要使用JavaRDD操作返回B列的相应值[ReturnValue=AliExpress]，而不使用DataFrames。输入表:COLUMNAColumnB56Walmart72Flipkart96Amazon100AliExpress输出表:COLUMNAColumnB100AliExpress这是我到现在为止尝试过的源代码:SparkConfconf=newSparkConf().setAppName("SparkCSVReader").setMaster("local");Jav

hadoop Spark code section pre apache-spark apache-spark-sql spark-dataframe rdd

java - RDD 到 CSV JAVA

我正在使用ApacheSpark和ApacheKylin，我必须在HDFS中存储一个csv文件，以便能够在Kylin中使用它创建一个多维数据集。我的想法是将我获得的RDD转换为csv文件，我试图将我的RDD转换为csv文件，如下所示:bookingDF.write().format("com.databricks.spark.csv").option("header","true").save("hdfs://10.7.30.131:8020/tmp/hfile/e.csv");但我总是像这样长时间收到错误，我认为这是因为我正在使用的对象的字段日期:17/01/1914:50:24ER

java String public private csv hadoop apache-spark

python - PySpark 加载 CSV AttributeError : 'RDD' object has no attribute '_get_object_id'

我正在尝试将CSV文件加载到sparkDataFrame中。这是我到目前为止所做的:#scisanSparkContext.appName="testSpark"master="local"conf=SparkConf().setAppName(appName).setMaster(master)sc=SparkContext(conf=conf)sqlContext=sql.SQLContext(sc)#csvpathtext_file=sc.textFile("hdfs:///path/to/sensordata20171008223515.csv")df=sqlContext.l

amp object section 34 39 python csv hadoop apache-spark

scala - 小于 spark scala rdd 中日期的比较

我想打印1991年以前入职的员工数据，下面是我的示例数据:69062,FRANK,ANALYST,5646,1991-12-03,3100.00,,200163679,SANDRINE,CLERK,69062,1990-12-18,900.00,,2001用于加载数据的初始RDD:valrdd=sc.textFile("file:////home/hduser/Desktop/Employees/employees.txt").filter(p=>{p!=null&&p.trim.length>0})用于将字符串列转换为日期列的UDF:defconvertStringToDate(s:

scala spark code 34 section apache-spark hadoop bigdata

java - 如何取消Spark Hadoop RDD计算

假设我有NewHadoopRDD，其中一个拆分在计算期间失败了。有了本地运行者，我很容易看到这个过程的所有阶段。我看到任务失败，但调度程序开始下一个任务，并且仅在此通知任务失败之后。15/02/1920:58:58INFOscheduler.TaskSetManager:Startingtask1.0instage0.0(TID1,localhost,PROCESS_LOCAL,1347bytes)15/02/1920:58:58INFOexecutor.Executor:Runningtask1.0instage0.0(TID1)15/02/1920:58:58WARNschedul

Hadoop Spark code 58 scheduler java scala apache-spark cluster-computing