PySpark

hadoop - Pyspark ML 错误对象没有属性映射

下面是我的数据框和代码df=abcd13101102512112361711248110442下面是我的代码spark=SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').getOrCreate()sqlCtx=SQLContext(spark)frompyspark.ml.linalgimportDenseVectorfrompyspark.mllib.regressionimportLabeledPointtemp=df.sele

Pyspark hadoop section 39 code machine-learning analytics cloudera

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪，它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

pyspark yarn-client java spark apache python hadoop apache-spark hadoop-yarn

java - 线程 "main"java.lang.NoClassDefFoundError : when launching pyspark 中的异常

我只是在Mac上下载了spark，我下载的版本是最新的为Hadoop2.6预先构建当我尝试安装它时，我在终端上输入bin/pyspark我得到的是以下异常Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/launcher/MainCausedby:java.lang.ClassNotFoundException:org.apache.spark.launcher.Mainatjava.net.URLClassLoader$1.run(URLClassLoader.java:202)atjava.

NoClassDefFoundError java section URLClassLoader hadoop apache-spark pyspark

python - pyspark tfidf 转换是否保持索引位置？

我正在运行一系列函数:hashingTF=HashingTF()documents=sc.parallelize(df.content_list.values)tf=hashingTF.transform(documents)tf.cache()idf=IDF(minDocFreq=2).fit(tf)tfidf=idf.transform(tf)但是我不确定它们是否仍保留在插入时的相同位置。有没有办法将它们映射回它们的原始值或索引？最佳答案我假设你想用IDF.transform的结果zipdocuments:combined=

pyspark python code section transform hadoop apache-spark

hadoop - 配置单元 pyspark 日期比较

我正在尝试将hiveQL查询转换为pyspark。我正在过滤日期并获得不同的结果，我想知道如何让pySpark中的行为与Hive的行为相匹配。配置单元查询是:SELECTCOUNT(zip_cd)FROMtableWHEREdt>='2012-01-01';在pySpark中，我正在进入解释器:importpyspark.sql.functionsaspsfimportdatetimeasdthc=HiveContext(sc)table_df=hc.table('table')DateFrom=dt.datetime.strptime('2012-01-01','%Y-%m-%d')

配置单 pyspark code section 2012 hadoop hive

python - pyspark 的分析器缺少输出

我正在尝试分析提交到我的集群的pyspark作业。这个pysparkPR(https://github.com/apache/spark/pull/2556)表示sc.dump_profiles(path)是命令。我已经尝试将配置文件输出转储到hadoophdfs:///user/username/filename和本地file:///home/username/filename，以及/home/用户名/文件名。作业完成但配置文件从未出现。代码基于这个SO问题(Howtoprofilepysparkjobs)，当包含--confspark.python.profile=true时，sc

分析器 pyspark code section profiles python hadoop apache-spark profiling

python - 如何让 PySpark 在内存不足之前将中间结果写入磁盘？

背景:在HadoopStreaming中，每个reduce作业在完成时都会写入hdfs，从而为Hadoop集群执行下一个reduce扫清道路。我无法将此范例映射到(Py)Spark。举个例子，df=spark.read.load('path')df.rdd.reduceByKey(my_func).toDF().write.save('output_path')当我运行它时，集群会在将任何内容写入磁盘之前收集数据框中的所有数据。至少这就是我观察工作进展时正在发生的事情。我的问题是我的数据比我的集群内存大得多，所以我在写入任何数据之前就用完了内存。在HadoopStreaming中，我们

在内 PySpark section code strong python hadoop apache-spark

hadoop - 在 PySpark 中显示 Hive 查询的状态

我正在从sparksession(spark)运行Hive查询spark.sql('SELECT*FROMSOME_TABLE').show()在sql函数中是否有一个参数，或者一个配置来打印类似于Hivecli中显示的状态？HadoopjobinformationforStage-1:numberofmappers:1193;numberofreducers:10992017-05-1614:54:38,165Stage-1map=0%,reduce=0%2017-05-1614:54:49,625Stage-1map=1%,reduce=0%,CumulativeCPU213.84

PySpark hadoop Cumulative reduce Stage apache-spark hive

python - 在 Pyspark rdd 中更改 saveAsTextFile 选项中的分隔符

我的数据集在HDFS中可用。我正在阅读它并执行过滤操作。dir=sc.textFile('/datasets/DelayedFlights.csv').filter(lambdax:int(x.split(',')[24])==1).map(lambday:y.split(','))Theoutputofaboveoperationis[u'1763',u'2008',u'1',u'3',u'4',u'922.0',u'915',u'',u'1050',u'WN',u'1069',u'N630WN',u'',u'95.0',u'',u'',u'7.0',u'SAN',u'SMF',u'

saveAsTextFile Pyspark 39 section 制表符 python hadoop apache-spark rdd

json - pyspark 将新的嵌套数组添加到现有的 json 文件中

我是Spark的新手，有一个大问题，我无法处理，即使经过数小时的搜索......我有一个看起来像这样的jsonFile:root|--dialogueData:struct(nullable=true)||--dialogueID:string(nullable=true)||--dialogueLength:double(nullable=true)||--speakerChanges:long(nullable=true)|--snippetlist:array(nullable=true)||--element:struct(containsNull=true)|||--conf

json pyspark nullable true section hadoop apache-spark dataframe

44 45 464748 49 50