pySpark

python - PySpark:TypeError: 'Column' 对象不可调用

我正在从HDFS加载数据，我想按特定变量过滤这些数据。但不知何故Column.isin命令不起作用。它抛出这个错误:TypeError:'Column'objectisnotcallablefrompyspark.sql.functionsimportudf,colvariables=('852-PI-769','812-HC-037','852-PC-571-OUT')df=sqlContext.read.option("mergeSchema","true").parquet("parameters.parquet")same_var=col("Variable").isin(va

python - 如何在 PySpark shell session 中更新 pyfile？

在交互式pysparksession中，您可以通过sc.addPyFile('file_location')导入python文件。如果您需要对该文件进行更改并保存它们，是否有任何方法可以“重新广播”更新后的文件而无需关闭您的sparksession并启动一个新的session？简单地再次添加文件是行不通的。我不确定重命名文件是否有效，但无论如何我都不想这样做。据我从spark文档中得知，只有一种添加pyfile的方法，而不是更新pyfile的方法。我希望我错过了什么!谢谢最佳答案我认为在交互式session期间不可行。您将必须重

何在 PySpark section session pyfile python apache-spark

python - 如何将 Spark Streaming 数据转换为 Spark DataFrame

到目前为止，Spark还没有创建流式数据的DataFrame，但是我在做异常检测的时候，使用DataFrame进行数据分析更加方便快捷。我已经完成了这部分，但是当我尝试使用流数据进行实时异常检测时，问题出现了。试了好几种方法，仍然无法将DStream转为DataFrame，也无法将DStream内部的RDD转为DataFrame。这是我最新版本的代码的一部分:importsysimportrefrompysparkimportSparkContextfrompyspark.sql.contextimportSQLContextfrompyspark.sqlimportRowfrompy

Spark DataFrame import section pyspark python spark-streaming

python - Python 中导入的 Spark 问题

我们正在python脚本上运行一个spark-submit命令，该脚本使用Spark在Python中使用Caffe并行进行对象检测。如果在纯Python脚本中运行，脚本本身运行得非常好，但在与Spark代码一起使用时会返回导入错误。我知道spark代码不是问题，因为它在我的家用机器上运行良好，但在AWS上运行不佳。我不确定这是否与环境变量有关，就好像它没有检测到它们一样。设置了这些环境变量:SPARK_HOME=/opt/spark/spark-2.0.0-bin-hadoop2.7PATH=$SPARK_HOME/bin:$PATHPYTHONPATH=$SPARK_HOME/pyt

中导 python spark pyspark apache-spark caffe pycaffe

python - Numpy 和静态链接

我在大型集群上运行Spark程序(对此我没有管理权限)。numpy未安装在工作节点上。因此，我将numpy与我的程序捆绑在一起，但出现以下错误:Traceback(mostrecentcalllast):File"/home/user/spark-script.py",line12,inimportnumpyFile"/usr/local/lib/python2.7/dist-packages/numpy/__init__.py",line170,inFile"/usr/local/lib/python2.7/dist-packages/numpy/add_newdocs.py",li

python Numpy code section apache-spark pyspark

python - 为什么我的 Spark 比纯 Python 运行得慢？性能比较

在这里激发新手。我尝试使用Spark对我的数据框执行一些pandas操作，令人惊讶的是它比纯Python慢(即在Python中使用pandas包)。这是我所做的:1)在Spark中:train_df.filter(train_df.gender=='-unknown-').count()返回结果大约需要30秒。但是使用Python大约需要1秒。2)在Spark中:sqlContext.sql("SELECTgender,count(*)FROMtrainGROUPBYgender").show()同样的事情，在Spark中大约需要30秒，在Python中需要1秒。我的Spark比纯Py

python Spark blockquote performance apache-spark pyspark apache-spark-sql

python - 如何将 pyspark.sql.dataframe.DataFrame 转换回 databricks notebook 中的 sql 表

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据框:dataframe=sqlContext.sql("select*frommy_data_table")如何将其转换回可以运行sql查询的sparksql表？最佳答案您可以使用createReplaceTempView创建表格.在你的情况下它会是这样的:dataframe.createOrReplaceTempView("mytable")在此之后，您可以使用SQL查询您的mytable。如果你的spark版本是≤1.6.2你可以使

databricks dataframe section pyspark code python sql apache-spark

python - PySpark:StructField(..., ..., False) 总是返回 `nullable=true` 而不是 `nullable=false`

我是PySpark的新手，正面临一个奇怪的问题。我试图在加载CSV数据集时将某些列设置为不可空。我可以使用非常小的数据集(test.csv)重现我的案例:col1,col2,col311,12,1321,22,2331,32,3341,42,4351,,53第5行第2列有一个空值，我不想在我的DF中获取该行。我将所有字段设置为不可为空(nullable=false)，但我得到了一个架构，其中所有三列都具有nullable=true。即使我将所有三列都设置为不可为空，也会发生这种情况!我正在运行最新可用的Spark版本2.0.1。代码如下:frompyspark.sqlimportSpa

nullable StructField code col python apache-spark pyspark apache-spark-sql

python - SparkSession 初始化错误 - 无法使用 spark.read

我尝试创建一个独立的PySpark程序来读取csv并将其存储在配置单元表中。我在配置Sparksession、session和上下文对象时遇到问题。这是我的代码:frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContext,SparkSessionfrompyspark.sql.typesimport*conf=SparkConf().setAppName("test_import")sc=SparkContext(conf=conf)sqlContext=SQLContext(sc)spark=Spark

SparkSession python code spark apache-spark pyspark apache-spark-sql apache-spark-2.0

python - pyspark Window.partitionBy 与 groupBy

假设我有一个包含大约21亿条记录的数据集。这是一个包含客户信息的数据集，我想知道他们做了多少次。所以我应该对ID进行分组并对一列求和(它有0和1值，其中1表示一个Action)。现在，我可以使用一个简单的groupBy和agg(sum)它，但据我所知，这并不是很有效。groupBy将在分区之间移动大量数据。或者，我也可以使用带有partitionBy子句的Window函数，然后对数据求和。缺点之一是我必须应用额外的过滤器，因为它会保留所有数据。我想要每个ID一条记录。但是我看不到这个窗口是如何处理数据的。是不是比这个groupBy和sum.还是一样？最佳答

partitionBy pyspark code groupBy section python apache-spark apache-spark-sql

21 22 232425 26 27