pyspark-dataframes

scala - 如何在 PySpark 中压缩两个 RDD？

我一直在尝试合并averagePoints1和kpoints2下面的两个Rdd。一直报错ValueError:CannotdeserializeRDDwithdifferentnumberofitemsinpair:(2,1)而且我尝试了很多东西，但我不能这两个Rdds是相同的，具有相同数量的分区。我的下一步是在两个列表上应用欧几里德距离函数来衡量差异，因此如果有人知道如何解决此错误或有不同的方法我可以遵循，我将非常感激。提前致谢averagePoints1=averagePoints.map(lambdax:x[1])averagePoints1.collect()Out[15]:[

中压何在 section averagePoints code scala hadoop apache-spark pyspark rdd

hadoop - Oozie pyspark 工作

我的工作流程非常简单。${jobTracker}${nameNode}mapred.compress.map.outputtruelocal[*]SparkExamplemapping.py--executor-memory1G--num-executors3--executor-cores1argument1argument2"Killedjobduetoerror"Spark脚本几乎什么都不做:iflen(sys.argv)脚本位于hdfs上，与workflow.xml位于同一文件夹中。运行工作流程时出现以下错误LauncherERROR,reason:Mainclass[org.

pyspark hadoop lt gt name apache-spark oozie

python - 无法从 cmd 表单 spark 目录运行 pyspark

我已经在我的windows10系统中安装了spark1.6(prebuiltforhadoop2.6)版本并且我已经正确设置了环境变量。当我运行pyspark时，我得到这个errormessage.但是我可以从spark目录运行“python”命令并返回正确的版本。谁能帮我解决这个问题？最佳答案当您运行python时，它会直接进入python命令行，但对于pyspark，您必须执行此位置不存在的pyspark可执行文件。您正在尝试进入C:\spark但pyspark文件存在于此位置C:\spark\bin\pyspark因此您需

pyspark python section spark hadoop apache-spark

hadoop - 如何配置 pyspark 默认写入 HDFS？

我正在尝试让spark默认写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体来说，如果我这样做:rdd=sc.parallelize([1,2,3,4,5])rdd.saveAsTextFile("/tmp/sample")它将写入我本地文件系统上名为/tmp/sample的文件。但是，如果我这样做rdd=sc.parallelize([1,2,3,4,5])rdd.saveAsTextFile("hdfs://localhost:9000/tmp/sample")然后它会保存到我本地hdfs实例上的适当位置。有没有办法配置或初始化

pyspark hadoop code section pre apache-spark

apache-spark - 无法使用 PySpark 从 Elasticsearch 读取

也许外面有人可以帮助我。我正在尝试使用PySpark从ES读取数据。我的JupyterNotebook代码非常简单:importpysparkconf=pyspark.SparkConf().setAppName('Test').setMaster('spark://spark-master:7077')sc=pyspark.SparkContext(conf=conf)es_rdd=sc.newAPIHadoopRDD(inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",keyClass="org.apache.h

Elasticsearch apache-spark java spark 34 hadoop pyspark jupyter-notebook

python - PySpark 和访问 HDFS

我正在尝试获取已复制到HDFS的文件，但我似乎无法弄清楚如何实际连接。例如，我使用以下命令将文件放在HDFS中:hdfsdfs-put~/spark-1.4.0/XXX/YYYinput哪个工作正常，但现在是从PySpark定位它们的问题。spark的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html我使用的是与hadoop2.6匹配的spark版本，但在上述链接指向的目录中没有看到任何conf文件。我可以直接访问输入文件吗？还是需要使用PySpark进行更多配置？

PySpark python section hadoop spark apache-spark

mysql - 如何有效地将 MySQL 表读入 Apache Spark/PySpark？

我有一堆MySQL表需要对其执行一些分析。我目前已将表格导出为CSV文件并将它们放在HDFS上。我现在从PySpark上的HDFS将每个表读入不同的RDD以进行分析。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)df=sqlContext.read.format('com.databricks.spark.csv').options(header='true',inferschema='true').load('hdfs://path/to/file.csv')今天我了解到您可以直接从MySQL读取表到Spark。这样做

读入 PySpark section 39 sqlContext mysql hadoop apache-spark apache-spark-sql

python - Spark : pyspark crash for some datasets - ubuntu

我正在使用Ubuntu和本地Spark安装(spark-2.0.2)。我的数据集很小，我的代码运行在我有一个小数据。如果我用更多行增加数据集(txt文件)，则会发生错误。我在安装了Hadoop的ClouderaVM上尝试了完全相同的代码，并且运行良好。所以，这一定是我的Ubuntu机器上的一些内存问题或限制。还有一些其他类似的问题，例如:ApacheSpark:pysparkcrashforlargedataset但在我的情况下它没有帮助。我没有Hadoop集群，只有Spark、python2.7和java1.8。它工作正常，只是当有一些更复杂的计算或数据集更大时它崩溃了。有什么线索吗

datasets pyspark spark apache scala python ubuntu hadoop apache-spark

python - ipython 不被识别为内部或外部命令 (pyspark)

我已经安装了spark版本:spark-2.2.0-bin-hadoop2.7。我正在使用Windows10操作系统我的java版本1.8.0_144我已经设置了我的环境变量:SPARK_HOMED:\spark-2.2.0-bin-hadoop2.7HADOOP_HOMED:\Hadoop(whereIputbin\winutils.exe)PYSPARK_DRIVER_PYTHONipythonPYSPARK_DRIVER_PYTHON_OPTSnotebook路径是D:\spark-2.2.0-bin-hadoop2.7\bin当我从命令行启动pyspark时出现此错误:ipyt

别为 ipython code section python hadoop apache-spark pyspark

python - Dataframe.toPandas 总是在驱动程序节点上还是在工作节点上？

假设您正在通过SparkContext和Hive加载大型数据集。所以这个数据集然后分布在你的Spark集群中。例如，对数千个变量的观察(值+时间戳)。现在您将使用一些map/reduce方法或聚合来组织/分析您的数据。例如按变量名分组。分组后，您可以获得每个变量的所有观察值(值)作为时间序列数据框。如果您现在使用DataFrame.toPandasdefmyFunction(data_frame):data_frame.toPandas()df=sc.load....df.groupBy('var_name').mapValues(_.toDF).map(myFunction)是否将其

Dataframe toPandas code section python hadoop pandas apache-spark pyspark

102 103 104105106 107 108