PySpark

python - spark-submit 和 pyspark 有什么区别？

如果我启动pyspark然后运行此命令:importmy_script;spark=my_script.Sparker(sc);spark.collapse('./data/')一切正常。但是，如果我尝试通过命令行和spark-submit做同样的事情，我会得到一个错误:Command:/usr/local/spark/bin/spark-submitmy_script.pycollapse./data/File"/usr/local/spark/python/pyspark/rdd.py",line352,infuncreturnf(iterator)File"/usr/local/

python - 如何将包含所有依赖项的 python 包安装到 Docker 镜像中？

我正在Ubuntu15.10中使用Pysparkjupyter/pyspark-notebook的Docker容器。我需要安装folium及其所有依赖项并将Pyspark脚本运行到容器中。我成功安装了Docker，拉取了镜像并用命令运行它dockerrun-d-p8888:8888-p4040:4040-v/home/$MYUSER/$MYPROJECT:/home/jovyan/workjupyter/pyspark-notebook然后，我执行代码示例没有任何问题importpysparksc=pyspark.SparkContext('local[*]')#dosomething

python Docker code conda section pyspark jupyter folium

python - 如何将包含所有依赖项的 python 包安装到 Docker 镜像中？

python Docker code conda section pyspark jupyter folium

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis？

我有一个配置2个数据流的pyspark应用程序:数据流A)从kafka中读取(主题1和2)->合并主题DStreams->做一些事情->输出到REDIS。数据流B)从kafka读取(主题3、4和5)->合并主题DStreams->做一些事情->输出到相同的REDIS。只有配置了其中一个，我才能在REDIS中获取数据，但不能同时配置两个。实际上，即使我将REDIS输出更改为pprint，也会发生这种情况。如果两个流中只有一个处于事件状态，我只会打印输出。我错过了什么？最佳答案问题在于可用的执行线程数。Spark文档说每个接收器都使

何在 apache-spark section strong REDIS apache-kafka pyspark spark-streaming

python - 使用 pySpark 将 DataFrame 写入 mysql 表

我正在尝试将记录插入到MySql表中。该表包含id和name作为列。我在pysparkshell中执行以下操作。name='tester_1'id='103'importpandasaspdl=[id,name]df=pd.DataFrame([l])df.write.format('jdbc').options(url='jdbc:mysql://localhost/database_name',driver='com.mysql.jdbc.Driver',dbtable='DestinationTableName',user='your_user_name',password='y

DataFrame pySpark 39 code section python mysql apache-spark apache-spark-sql

apache-spark - Pyspark 简单的重新分区和 toPandas() 未能在 600,000+ 行上完成

我有JSON数据，我正在将这些数据读入一个包含多个字段的数据框中，根据两列对其进行重新分区，然后转换为Pandas。这项作业在仅600,000行数据上的EMR上不断失败，并带有一些模糊的错误。我还增加了Spark驱动程序的内存设置，但仍然看不到任何分辨率。这是我的pyspark代码:enhDataDf=(sqlContext.read.json(sys.argv[1]))enhDataDf=(enhDataDf.repartition('column1','column2').toPandas())enhDataDf=sqlContext.createDataFrame(enhData

apache-spark toPandas code enhDataDf ERROR memory pyspark distributed-computing bigdata

python - 在 PySpark ML 中创建自定义 Transformer

我是SparkSQLDataFrames和ML的新手(PySpark)。如何创建自定义标记器，例如删除停用词并使用nltk中的一些库?我可以扩展默认的吗？最佳答案 CanIextendthedefaultone?不是真的。默认Tokenizer是pyspark.ml.wrapper.JavaTransformer的子类，并且与来自pyspark.ml.feature的其他转换器和估计器相同，代表对其Scala对应物的实际处理。既然你想使用Python，你应该直接扩展pyspark.ml.pipeline.Transformer。i

中创自定 self stopwords 34 python apache-spark nltk pyspark apache-spark-ml

python - Pyspark:显示数据框列的直方图

在pandas数据框中，我使用以下代码绘制列的直方图:my_df.hist(column='field_1')在pyspark数据框中有什么东西可以实现相同的目标吗？(我在JupyterNotebook中)谢谢! 最佳答案不幸的是，我认为PySparkDataframesAPI中没有干净的plot()或hist()函数，但我希望事情最终会发生往那个方向走。目前，您可以在Spark中计算直方图，并将计算出的直方图绘制为条形图。示例:importpandasaspdimportpyspark.sqlassparksql#Let'sus

Pyspark python code section 39 spark-dataframe jupyter-notebook

python - PySpark 和广播连接示例

我使用的是Spark1.3#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data1.registerTempTable('data1')#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data2.registerTempTable('data2')#Performjoindata_joined=data1.join(data2,data1.id==data2.id);我的数据非常倾斜，data2(几KB)

PySpark python data data1 data2 apache-spark apache-spark-sql

python - 将 Jar 添加到独立的 pyspark

我正在启动一个pyspark程序:$exportSPARK_HOME=$exportPYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip$python还有py代码:frompysparkimportSparkContext,SparkConfSparkConf().setAppName("Example").setMaster("local[2]")sc=SparkContext(conf=conf)如何添加jar依赖项，例如Databrickscsvjar？使用命令行，我可以像这样添加包:$pysp

pyspark python strong spark section apache-spark

61 62 636465 66 67