草庐IT

python - spark-submit 和 pyspark 有什么区别?

如果我启动pyspark然后运行此命令:importmy_script;spark=my_script.Sparker(sc);spark.collapse('./data/')一切正常。但是,如果我尝试通过命令行和spark-submit做同样的事情,我会得到一个错误:Command:/usr/local/spark/bin/spark-submitmy_script.pycollapse./data/File"/usr/local/spark/python/pyspark/rdd.py",line352,infuncreturnf(iterator)File"/usr/local/

python - 如何将包含所有依赖项的 python 包安装到 Docker 镜像中?

我正在Ubuntu15.10中使用Pysparkjupyter/pyspark-notebook的Docker容器。我需要安装folium及其所有依赖项并将Pyspark脚本运行到容器中。我成功安装了Docker,拉取了镜像并用命令运行它dockerrun-d-p8888:8888-p4040:4040-v/home/$MYUSER/$MYPROJECT:/home/jovyan/workjupyter/pyspark-notebook然后,我执行代码示例没有任何问题importpysparksc=pyspark.SparkContext('local[*]')#dosomething

python - 如何将包含所有依赖项的 python 包安装到 Docker 镜像中?

我正在Ubuntu15.10中使用Pysparkjupyter/pyspark-notebook的Docker容器。我需要安装folium及其所有依赖项并将Pyspark脚本运行到容器中。我成功安装了Docker,拉取了镜像并用命令运行它dockerrun-d-p8888:8888-p4040:4040-v/home/$MYUSER/$MYPROJECT:/home/jovyan/workjupyter/pyspark-notebook然后,我执行代码示例没有任何问题importpysparksc=pyspark.SparkContext('local[*]')#dosomething

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis?

我有一个配置2个数据流的pyspark应用程序:数据流A)从kafka中读取(主题1和2)->合并主题DStreams->做一些事情->输出到REDIS。数据流B)从kafka读取(主题3、4和5)->合并主题DStreams->做一些事情->输出到相同的REDIS。只有配置了其中一个,我才能在REDIS中获取数据,但不能同时配置两个。实际上,即使我将REDIS输出更改为pprint,也会发生这种情况。如果两个流中只有一个处于事件状态,我只会打印输出。我错过了什么? 最佳答案 问题在于可用的执行线程数。Spark文档说每个接收器都使

python - 使用 pySpark 将 DataFrame 写入 mysql 表

我正在尝试将记录插入到MySql表中。该表包含id和name作为列。我在pysparkshell中执行以下操作。name='tester_1'id='103'importpandasaspdl=[id,name]df=pd.DataFrame([l])df.write.format('jdbc').options(url='jdbc:mysql://localhost/database_name',driver='com.mysql.jdbc.Driver',dbtable='DestinationTableName',user='your_user_name',password='y

apache-spark - Pyspark 简单的重新分区和 toPandas() 未能在 600,000+ 行上完成

我有JSON数据,我正在将这些数据读入一个包含多个字段的数据框中,根据两列对其进行重新分区,然后转换为Pandas。这项作业在仅600,000行数据上的EMR上不断失败,并带有一些模糊的错误。我还增加了Spark驱动程序的内存设置,但仍然看不到任何分辨率。这是我的pyspark代码:enhDataDf=(sqlContext.read.json(sys.argv[1]))enhDataDf=(enhDataDf.repartition('column1','column2').toPandas())enhDataDf=sqlContext.createDataFrame(enhData

python - 在 PySpark ML 中创建自定义 Transformer

我是SparkSQLDataFrames和ML的新手(PySpark)。如何创建自定义标记器,例如删除停用词并使用nltk中的一些库?我可以扩展默认的吗? 最佳答案 CanIextendthedefaultone?不是真的。默认Tokenizer是pyspark.ml.wrapper.JavaTransformer的子类,并且与来自pyspark.ml.feature的其他转换器和估计器相同,代表对其Scala对应物的实际处理。既然你想使用Python,你应该直接扩展pyspark.ml.pipeline.Transformer。i

python - Pyspark:显示数据框列的直方图

在pandas数据框中,我使用以下代码绘制列的直方图:my_df.hist(column='field_1')在pyspark数据框中有什么东西可以实现相同的目标吗?(我在JupyterNotebook中)谢谢! 最佳答案 不幸的是,我认为PySparkDataframesAPI中没有干净的plot()或hist()函数,但我希望事情最终会发生往那个方向走。目前,您可以在Spark中计算直方图,并将计算出的直方图绘制为条形图。示例:importpandasaspdimportpyspark.sqlassparksql#Let'sus

python - PySpark 和广播连接示例

我使用的是Spark1.3#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data1.registerTempTable('data1')#Readfromtextfile,parseitandthendosomebasicfilteringtogetdata1data2.registerTempTable('data2')#Performjoindata_joined=data1.join(data2,data1.id==data2.id);我的数据非常倾斜,data2(几KB)

python - 将 Jar 添加到独立的 pyspark

我正在启动一个pyspark程序:$exportSPARK_HOME=$exportPYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip$python还有py代码:frompysparkimportSparkContext,SparkConfSparkConf().setAppName("Example").setMaster("local[2]")sc=SparkContext(conf=conf)如何添加jar依赖项,例如Databrickscsvjar?使用命令行,我可以像这样添加包:$pysp