spark-ml

python - 如何将 Spark Streaming 数据转换为 Spark DataFrame

到目前为止，Spark还没有创建流式数据的DataFrame，但是我在做异常检测的时候，使用DataFrame进行数据分析更加方便快捷。我已经完成了这部分，但是当我尝试使用流数据进行实时异常检测时，问题出现了。试了好几种方法，仍然无法将DStream转为DataFrame，也无法将DStream内部的RDD转为DataFrame。这是我最新版本的代码的一部分:importsysimportrefrompysparkimportSparkContextfrompyspark.sql.contextimportSQLContextfrompyspark.sqlimportRowfrompy

python - Python 中导入的 Spark 问题

我们正在python脚本上运行一个spark-submit命令，该脚本使用Spark在Python中使用Caffe并行进行对象检测。如果在纯Python脚本中运行，脚本本身运行得非常好，但在与Spark代码一起使用时会返回导入错误。我知道spark代码不是问题，因为它在我的家用机器上运行良好，但在AWS上运行不佳。我不确定这是否与环境变量有关，就好像它没有检测到它们一样。设置了这些环境变量:SPARK_HOME=/opt/spark/spark-2.0.0-bin-hadoop2.7PATH=$SPARK_HOME/bin:$PATHPYTHONPATH=$SPARK_HOME/pyt

中导 python spark pyspark apache-spark caffe pycaffe

python - 为什么我的 Spark 比纯 Python 运行得慢？性能比较

在这里激发新手。我尝试使用Spark对我的数据框执行一些pandas操作，令人惊讶的是它比纯Python慢(即在Python中使用pandas包)。这是我所做的:1)在Spark中:train_df.filter(train_df.gender=='-unknown-').count()返回结果大约需要30秒。但是使用Python大约需要1秒。2)在Spark中:sqlContext.sql("SELECTgender,count(*)FROMtrainGROUPBYgender").show()同样的事情，在Spark中大约需要30秒，在Python中需要1秒。我的Spark比纯Py

python Spark blockquote performance apache-spark pyspark apache-spark-sql

python - SparkSession 初始化错误 - 无法使用 spark.read

我尝试创建一个独立的PySpark程序来读取csv并将其存储在配置单元表中。我在配置Sparksession、session和上下文对象时遇到问题。这是我的代码:frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContext,SparkSessionfrompyspark.sql.typesimport*conf=SparkConf().setAppName("test_import")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)spark=Spark

SparkSession python code spark apache-spark pyspark apache-spark-sql apache-spark-2.0

python - 使用 boto3 客户端提交时，spark-submit EMR 步骤失败

我正在尝试使用boto3客户端为EMR执行spark-submit。执行下面的代码后，EMR步骤提交，几秒钟后失败。如果在EMR主机上手动执行，来自步骤日志的实际命令行是有效的。Controller日志显示几乎不可读的垃圾，看起来像多个进程同时写入。UPD:尝试过command-runner.jar和EMR版本4.0.0和4.1.0任何想法表示赞赏。代码片段:classProblemExample:defrun(self):session=boto3.Session(profile_name='emr-profile')client=session.client('emr')respo

spark-submit python 39 section spark apache-spark emr boto3

python - 16 个任务的序列化结果总大小 (1048.5 MB) 大于 spark.driver.maxResultSize (1024.0 MB)

当我将--confspark.driver.maxResultSize=2050添加到我的spark-submit命令时，出现以下错误。17/12/2718:33:19ERRORTransportResponseHandler:Stillhave1requestsoutstandingwhenconnectionfrom/XXX.XX.XXX.XX:36245isclosed17/12/2718:33:19WARNExecutor:Issuecommunicatingwithdriverinheartbeaterorg.apache.spark.SparkException:Excep

maxResultSize python strong spark apache apache-spark pyspark spark-dataframe

python - 按列值是否等于 Spark 中的列表进行过滤

我正在尝试根据列中的值是否等于列表来过滤Spark数据框。我想做这样的事情:filtered_df=df.where(df.a==['list','of','stuff'])filtered_df仅包含filtered_df.a值为['list','of','stuff']的行a的类型是array(nullable=true)。最佳答案更新:在当前版本中，您可以使用文字的数组:frompyspark.sql.functionsimportarray,litdf.where(df.a==array(*[lit(x)forxin['

python Spark 39 code section apache-spark pyspark apache-spark-sql

Spark+Celeborn：更快，更稳，更弹性

摘要：本文整理自阿里云EMRSpark团队的周克勇（一锤），在Spark&DSMeetup的分享。本篇内容主要分为三个部分：传统Shuffle的问题ApacheCeleborn（Incubating）简介Celeborn在性能、稳定性、弹性上的设计一、传统Shuffle的问题ApacheSpark是广为流行的大数据处理引擎，它有很多使用场景:SparkSQL、批处理、流处理、MLLIB、GraphX等。在所有组件下是统一的RDD抽象，RDD血缘通过两种依赖关系描述，窄依赖和宽依赖。其中宽依赖是支撑复杂算子（Join,Agg等）的关键，而宽依赖实现机制就是Shuffle。传统的Shuffle实现

弹性更快 xff0c xff0 xff 大数据 java spark 阿里云云计算

尝试Cloudera Spark教程将无法使用“ ClassNotFoundException”

我尝试在类似的现有帖子中建议的解决方案，但对我来说没有任何作用：-（越来越绝望，我决定将其作为一个新问题发布。我尝试了一个教程（下面的链接），以在ClouderaVM中使用Spark构建第一个Scala或Java应用程序。这是我的Spark-Submit命令及其输出[cloudera@quickstartsparkwordcount]$spark-submit--classcom.cloudera.sparkwordcount.SparkWordCount--masterlocal/home/cloudera/src/main/scala/com/cloudera/sparkwordcount

ClassNotFoundException Cloudera sparkwordcount SparkSubmit

python - Spark 中的分组线性回归

我在PySpark工作，我想找到一种对数据组执行线性回归的方法。特别给出这个数据框importpandasaspdpdf=pd.DataFrame({'group_id':[1,1,1,2,2,2,3,3,3,3],'x':[0,1,2,0,1,5,2,3,4,5],'y':[2,1,0,0,0.5,2.5,3,4,5,6]})df=sqlContext.createDataFrame(pdf)df.show()#+--------+-+---+#|group_id|x|y|#+--------+-+---+#|1|0|2.0|#|1|1|1.0|#|1|2|0.0|#|2|0|0.0

python Spark code group_id group pandas apache-spark pyspark

135 136 137138139 140 141