PySpark_草庐IT

python - 在 PySpark 中编码和组装多个功能

我有一个Python类，用于在Spark中加载和处理一些数据。在我需要做的各种事情中，我正在生成一个从Spark数据帧中的各个列派生的虚拟变量列表。我的问题是我不确定如何正确定义用户定义函数来完成我所需要的。我确实目前有一个方法，当映射到底层数据帧RDD时，解决了一半的问题(请记住，这是一个更大的data_processor类中的方法):defbuild_feature_arr(self,table):#thisdicthaskeysforallthecolumnsforwhichIneeddummycodingcategories={'gender':['1','2'],..}#th

PySpark python code 34 gender apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

python - 取消持久化(pyspark)中的所有数据帧

我是一个spark应用程序，有几个点我想保持当前状态。这通常是在一大步之后，或者缓存我想多次使用的状态。看来，当我第二次在我的数据帧上调用缓存时，一个新副本被缓存到内存中。在我的应用程序中，这会在扩展时导致内存问题。即使在我当前的测试中，给定的数据帧最大约为100MB，但中间结果的累积大小会超出执行程序上分配的内存。请参阅下面的一个小示例来显示此行为。cache_test.py:frompysparkimportSparkContext,HiveContextspark_context=SparkContext(appName='cache_test')hive_context=Hiv

持久 pyspark code section spark python caching apache-spark apache-spark-sql

python - 在 PySpark 数据框中添加列总和作为新列

我正在使用PySpark，并且我有一个带有一堆数字列的Spark数据框。我想添加一列，它是所有其他列的总和。假设我的数据框有“a”、“b”和“c”列。我知道我可以做到:df.withColumn('total_col',df.a+df.b+df.c)问题是我不想单独输入每一列并添加它们，尤其是当我有很多列时。我希望能够自动执行此操作，或者通过指定要添加的列名列表来执行此操作。还有其他方法吗？最佳答案这并不明显。我没有看到sparkDataframesAPI中定义的列的基于行的总和。版本2这可以通过一种相当简单的方式完成:newd

PySpark python 39 code section apache-spark spark-dataframe

python - 在 pyspark 中找不到 col 函数

在pyspark1.6.2中，我可以通过导入col函数frompyspark.sql.functionsimportcol但是当我尝试在Githubsourcecode中查找时我在functions.py文件中找不到col函数，python如何导入不存在的函数？最佳答案它存在。它只是没有明确定义。从pyspark.sql.functions导出的函数是JVM代码的精简包装器，除了少数需要特殊处理的异常(exception)情况外，它们是使用辅助方法自动生成的。如果你仔细检查出处you'llfindcollistedamongot

pyspark python code functions apache-spark apache-spark-sql

python - 如何将向量拆分为列 - 使用 PySpark

这个问题在这里已经有了答案:HowtoaccesselementofaVectorUDTcolumninaSparkDataFrame?(5个回答)关闭3个月前。上下文:我有一个DataFrame有2列:单词和向量。其中“vector”的列类型为VectorUDT。一个例子:word|vectorassert|[435,323,324,212...]我想得到这个:word|v1|v2|v3|v4|v5|v6......assert|435|5435|698|356|....问题:如何使用PySpark将包含向量的列拆分为每个维度的多个列？提前致谢最佳答案

PySpark python section code 34 apache-spark apache-spark-sql apache-spark-ml

python - 计算 PySpark 中 Spark 数据帧每列中非 NaN 条目的数量

我在Hive中加载了一个非常大的数据集(大约190万行和1450列)。我需要确定每列的“覆盖率”，即每列具有非NaN值的行的比例。这是我的代码:frompysparkimportSparkContextfrompyspark.sqlimportHiveContextimportstringasstringsc=SparkContext(appName="compute_coverages")##CreatethecontextsqlContext=HiveContext(sc)df=sqlContext.sql("select*fromdata_table")nrows_tot=df.

中非条目 code count 34 python apache-spark dataframe pyspark apache-spark-sql

python - PySpark:when子句中的多个条件

我想修改当前为空白的数据框列(Age)的单元格值，并且仅当另一列(Survived)的相应行的值为0时，我才会这样做，而该行的Age为空白。如果它在Survived列中为1，但在Age列中为空白，那么我将其保留为null。我尝试使用&&运算符，但没有成功。这是我的代码:tdata.withColumn("Age",when((tdata.Age==""&&tdata.Survived=="0"),mean_age_0).otherwise(tdata.Age)).show()任何建议如何处理？谢谢。错误信息:SyntaxError:invalidsyntaxFile"",line1td

PySpark python code 34 section apache-spark dataframe apache-spark-sql

python - 如何对 PySpark 程序进行单元测试？

我当前的Java/Spark单元测试方法通过使用“本地”实例化SparkContext并使用JUnit运行单元测试来工作(详细here)。必须组织代码在一个函数中执行I/O，然后使用多个RDD调用另一个函数。这很好用。我有一个用Java+Spark编写的经过高度测试的数据转换。我可以用Python做同样的事情吗？如何使用Python运行Spark单元测试？最佳答案我也建议使用py.test。py.test可以轻松创建可重用的SparkContext测试装置并使用它来编写简洁的测试函数。您还可以专门化夹具(例如创建Streamin

PySpark python spark section test unit-testing apache-spark

python - 如何加入 Pyspark 中的多个列？

我正在使用Spark1.3，并希望使用python接口(interface)(SparkSQL)加入多个列以下作品:我首先将它们注册为临时表。numeric.registerTempTable("numeric")Ref.registerTempTable("Ref")test=numeric.join(Ref,numeric.ID==Ref.ID,joinType='inner')我现在想根据多个列加入它们。我得到SyntaxError:invalidsyntaxwiththis:test=numeric.join(Ref,numeric.ID==Ref.IDANDnumeric.T

Pyspark python code 34 section apache-spark join apache-spark-sql

python - 在pyspark中检索每组DataFrame中的前n个

pyspark中有一个DataFrame，数据如下:user_idobject_idscoreuser_1object_13user_1object_11user_1object_22user_2object_15user_2object_22user_2object_26我期望的是在每个组中返回2条具有相同user_id的记录，这些记录需要获得最高分。因此，结果应如下所示:user_idobject_idscoreuser_1object_13user_1object_22user_2object_26user_2object_15我真的是pyspark的新手，谁能给我一个代码片段或

DataFrame pyspark object user 34 python apache-spark apache-spark-sql