pyspark-dataframes

python - 如何使用字符串访问 pandas DataFrame 日期时间索引

这是一个非常简单实用的问题。我觉得这一定是一个愚蠢的细节，应该有类似的问题。我没能找到他们。如果有人这样做，我会很乐意删除这个。我找到的最接近的是这些:pandas:iteratingoverDataFrameindexwithlocHowtoselectrowswithinapandasdataframebasedontimeonlywhenindexisdateandtime无论如何，我有一个日期时间索引的Pandas数据框，如下所示:In[81]:yOut[81]:PETR4CSNA3VALE52008-01-010.00.00.02008-01-021.01.01.02008-

python - 如何使用字符串访问 pandas DataFrame 日期时间索引

这是一个非常简单实用的问题。我觉得这一定是一个愚蠢的细节，应该有类似的问题。我没能找到他们。如果有人这样做，我会很乐意删除这个。我找到的最接近的是这些:pandas:iteratingoverDataFrameindexwithlocHowtoselectrowswithinapandasdataframebasedontimeonlywhenindexisdateandtime无论如何，我有一个日期时间索引的Pandas数据框，如下所示:In[81]:yOut[81]:PETR4CSNA3VALE52008-01-010.00.00.02008-01-021.01.01.02008-

DataFrame python 2008 code pandas

python - PySpark 拖放行

如何从PySpark中的RDD中删除行？特别是第一行，因为它往往包含我的数据集中的列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然我可以通过Bash/HDFS做到这一点，但我只想知道这是否可以在PySpark中完成。最佳答案特定于PySpark:根据@maasg，您可以这样做:header=rdd.first()rdd.filter(lambdaline:line!=header)但这在技术上并不正确，因为您可能会排除包含数据的行以及标题。但是，这似乎对我有用:defremove_header(itr_in

放行 PySpark section code python apache-spark

python - PySpark 拖放行

如何从PySpark中的RDD中删除行？特别是第一行，因为它往往包含我的数据集中的列名。通过仔细阅读API，我似乎找不到一种简单的方法来做到这一点。当然我可以通过Bash/HDFS做到这一点，但我只想知道这是否可以在PySpark中完成。最佳答案特定于PySpark:根据@maasg，您可以这样做:header=rdd.first()rdd.filter(lambdaline:line!=header)但这在技术上并不正确，因为您可能会排除包含数据的行以及标题。但是，这似乎对我有用:defremove_header(itr_in

放行 PySpark section code python apache-spark

python - 计算pandas DataFrame中缺失值行数的最佳方法

我目前想出了一些变通方法来计算pandasDataFrame中缺失值的数量。这些都很丑，我想知道是否有更好的方法。让我们创建一个示例DataFrame:fromnumpy.randomimportrandndf=pd.DataFrame(randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])df=df.reindex(['a','b','c','d','e','f','g','h'])我目前拥有的是a)计数缺失值的单元格:>>>sum(df.isnull().values.ravel())9b)计算某处

缺失 DataFrame 39 code isnull python pandas missing-data

python - 计算pandas DataFrame中缺失值行数的最佳方法

我目前想出了一些变通方法来计算pandasDataFrame中缺失值的数量。这些都很丑，我想知道是否有更好的方法。让我们创建一个示例DataFrame:fromnumpy.randomimportrandndf=pd.DataFrame(randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])df=df.reindex(['a','b','c','d','e','f','g','h'])我目前拥有的是a)计数缺失值的单元格:>>>sum(df.isnull().values.ravel())9b)计算某处

缺失 DataFrame 39 code isnull python pandas missing-data

python - Pyspark 替换 Spark 数据框列中的字符串

我想通过替换子字符串对SparkDataframe列执行一些基本的词干提取。最快的方法是什么？在我当前的用例中，我有一个要规范化的地址列表。例如这个数据框:idaddress12foolane210barlane324pantsln会变成idaddress12fooln210barln324pantsln 最佳答案对于Spark1.5或更高版本，您可以使用functions包装:frompyspark.sql.functionsimport*newDf=df.withColumn('address',regexp_replace(

Pyspark python section code address apache-spark

python - Pyspark 替换 Spark 数据框列中的字符串

我想通过替换子字符串对SparkDataframe列执行一些基本的词干提取。最快的方法是什么？在我当前的用例中，我有一个要规范化的地址列表。例如这个数据框:idaddress12foolane210barlane324pantsln会变成idaddress12fooln210barln324pantsln 最佳答案对于Spark1.5或更高版本，您可以使用functions包装:frompyspark.sql.functionsimport*newDf=df.withColumn('address',regexp_replace(

Pyspark python section code address apache-spark

python - pyspark中groupBy之后的列别名

我需要下一行中的结果数据框，以便在groupBy之后的max('diff')列具有别名“maxDiff”。但是，下面的行没有进行任何更改，也不会引发错误。grpdf=joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") 最佳答案你可以使用agg代替调用max方法:frompyspark.sql.functionsimportmaxjoined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff

pyspark groupBy code section 34 python scala apache-spark apache-spark-sql

python - pyspark中groupBy之后的列别名

我需要下一行中的结果数据框，以便在groupBy之后的max('diff')列具有别名“maxDiff”。但是，下面的行没有进行任何更改，也不会引发错误。grpdf=joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") 最佳答案你可以使用agg代替调用max方法:frompyspark.sql.functionsimportmaxjoined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff

pyspark groupBy code section 34 python scala apache-spark apache-spark-sql