草庐IT

pyspark-dataframes

全部标签

python - 如何使用字符串访问 pandas DataFrame 日期时间索引

这是一个非常简单实用的问题。我觉得这一定是一个愚蠢的细节,应该有类似的问题。我没能找到他们。如果有人这样做,我会很乐意删除这个。我找到的最接近的是这些:pandas:iteratingoverDataFrameindexwithlocHowtoselectrowswithinapandasdataframebasedontimeonlywhenindexisdateandtime无论如何,我有一个日期时间索引的Pandas数据框,如下所示:In[81]:yOut[81]:PETR4CSNA3VALE52008-01-010.00.00.02008-01-021.01.01.02008-

python - 如何使用字符串访问 pandas DataFrame 日期时间索引

这是一个非常简单实用的问题。我觉得这一定是一个愚蠢的细节,应该有类似的问题。我没能找到他们。如果有人这样做,我会很乐意删除这个。我找到的最接近的是这些:pandas:iteratingoverDataFrameindexwithlocHowtoselectrowswithinapandasdataframebasedontimeonlywhenindexisdateandtime无论如何,我有一个日期时间索引的Pandas数据框,如下所示:In[81]:yOut[81]:PETR4CSNA3VALE52008-01-010.00.00.02008-01-021.01.01.02008-

python - PySpark 拖放行

如何从PySpark中的RDD中删除行?特别是第一行,因为它往往包含我的数据集中的列名。通过仔细阅读API,我似乎找不到一种简单的方法来做到这一点。当然我可以通过Bash/HDFS做到这一点,但我只想知道这是否可以在PySpark中完成。 最佳答案 特定于PySpark:根据@maasg,您可以这样做:header=rdd.first()rdd.filter(lambdaline:line!=header)但这在技术上并不正确,因为您可能会排除包含数据的行以及标题。但是,这似乎对我有用:defremove_header(itr_in

python - PySpark 拖放行

如何从PySpark中的RDD中删除行?特别是第一行,因为它往往包含我的数据集中的列名。通过仔细阅读API,我似乎找不到一种简单的方法来做到这一点。当然我可以通过Bash/HDFS做到这一点,但我只想知道这是否可以在PySpark中完成。 最佳答案 特定于PySpark:根据@maasg,您可以这样做:header=rdd.first()rdd.filter(lambdaline:line!=header)但这在技术上并不正确,因为您可能会排除包含数据的行以及标题。但是,这似乎对我有用:defremove_header(itr_in

python - 计算pandas DataFrame中缺失值行数的最佳方法

我目前想出了一些变通方法来计算pandasDataFrame中缺失值的数量。这些都很丑,我想知道是否有更好的方法。让我们创建一个示例DataFrame:fromnumpy.randomimportrandndf=pd.DataFrame(randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])df=df.reindex(['a','b','c','d','e','f','g','h'])我目前拥有的是a)计数缺失值的单元格:>>>sum(df.isnull().values.ravel())9b)计算某处

python - 计算pandas DataFrame中缺失值行数的最佳方法

我目前想出了一些变通方法来计算pandasDataFrame中缺失值的数量。这些都很丑,我想知道是否有更好的方法。让我们创建一个示例DataFrame:fromnumpy.randomimportrandndf=pd.DataFrame(randn(5,3),index=['a','c','e','f','h'],columns=['one','two','three'])df=df.reindex(['a','b','c','d','e','f','g','h'])我目前拥有的是a)计数缺失值的单元格:>>>sum(df.isnull().values.ravel())9b)计算某处

python - Pyspark 替换 Spark 数据框列中的字符串

我想通过替换子字符串对SparkDataframe列执行一些基本的词干提取。最快的方法是什么?在我当前的用例中,我有一个要规范化的地址列表。例如这个数据框:idaddress12foolane210barlane324pantsln会变成idaddress12fooln210barln324pantsln 最佳答案 对于Spark1.5或更高版本,您可以使用functions包装:frompyspark.sql.functionsimport*newDf=df.withColumn('address',regexp_replace(

python - Pyspark 替换 Spark 数据框列中的字符串

我想通过替换子字符串对SparkDataframe列执行一些基本的词干提取。最快的方法是什么?在我当前的用例中,我有一个要规范化的地址列表。例如这个数据框:idaddress12foolane210barlane324pantsln会变成idaddress12fooln210barln324pantsln 最佳答案 对于Spark1.5或更高版本,您可以使用functions包装:frompyspark.sql.functionsimport*newDf=df.withColumn('address',regexp_replace(

python - pyspark中groupBy之后的列别名

我需要下一行中的结果数据框,以便在groupBy之后的max('diff')列具有别名“maxDiff”。但是,下面的行没有进行任何更改,也不会引发错误。grpdf=joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") 最佳答案 你可以使用agg代替调用max方法:frompyspark.sql.functionsimportmaxjoined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff

python - pyspark中groupBy之后的列别名

我需要下一行中的结果数据框,以便在groupBy之后的max('diff')列具有别名“maxDiff”。但是,下面的行没有进行任何更改,也不会引发错误。grpdf=joined_df.groupBy(temp1.datestamp).max('diff').alias("maxDiff") 最佳答案 你可以使用agg代替调用max方法:frompyspark.sql.functionsimportmaxjoined_df.groupBy(temp1.datestamp).agg(max("diff").alias("maxDiff