草庐IT

dataframe

全部标签

python - Spark RDD 到 DataFrame python

我正在尝试将SparkRDD转换为DataFrame。我已经看到将方案传递给的文档和示例sqlContext.CreateDataFrame(rdd,schema)函数。但我有38个列或字段,这将进一步增加。如果我手动给schema指定每个字段信息,那将是一件非常乏味的工作。有没有其他方法可以在不知道之前列信息的情况下指定架构。 最佳答案 看,在Spark中有两种方法可以将RDD转换为DF。toDF()和createDataFrame(rdd,schema)我将向您展示如何动态地做到这一点。toDF()toDF()命令提供了将RDD

python - 如何获取数据框列值的平均值

ABDATE2013-05-01473077713332013-05-0235131624412013-05-03727273812013-05-0448112062013-05-0522617332013-05-06NaN40642013-05-07NaN411512013-05-08NaN81442013-05-09NaN232013-05-10NaN10说我有上面的数据框。获得具有相同索引(即A列和B列的平均值)的系列的最简单方法是什么?平均值需要忽略NaN值。不同之处在于,该解决方案需要灵活地向数据框中添加新列。我最接近的是df.sum(axis=1)/len(df.colum

python - 如何获取数据框列值的平均值

ABDATE2013-05-01473077713332013-05-0235131624412013-05-03727273812013-05-0448112062013-05-0522617332013-05-06NaN40642013-05-07NaN411512013-05-08NaN81442013-05-09NaN232013-05-10NaN10说我有上面的数据框。获得具有相同索引(即A列和B列的平均值)的系列的最简单方法是什么?平均值需要忽略NaN值。不同之处在于,该解决方案需要灵活地向数据框中添加新列。我最接近的是df.sum(axis=1)/len(df.colum

python - Pandas 数据框删除常量列

我有一个数据框,它可能有也可能没有相同值的列。例如rowAB190270350420我只想回来rowA19273542有没有一种简单的方法来识别这些列是否存在然后删除它们? 最佳答案 我相信这个选项会比这里的其他答案更快,因为它只会遍历数据帧一次进行比较,如果找到非唯一值则短路。>>>df012019012702370>>>df.loc[:,(df!=df.iloc[0]).any()]01019127237 关于python-Pandas数据框删除常量列,我们在StackOverflo

python - Pandas 数据框删除常量列

我有一个数据框,它可能有也可能没有相同值的列。例如rowAB190270350420我只想回来rowA19273542有没有一种简单的方法来识别这些列是否存在然后删除它们? 最佳答案 我相信这个选项会比这里的其他答案更快,因为它只会遍历数据帧一次进行比较,如果找到非唯一值则短路。>>>df012019012702370>>>df.loc[:,(df!=df.iloc[0]).any()]01019127237 关于python-Pandas数据框删除常量列,我们在StackOverflo

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - 在几个 DataFrame 列上运行 get_dummies?

如何在多个DataFrame列上惯用地运行像get_dummies这样的函数,它需要一个列并返回多个列? 最佳答案 使用pandas0.19,您可以在一行中完成:pd.get_dummies(data=df,columns=['A','B'])Columns指定在何处进行OneHotEncoding。>>>dfABC0ac11bc22ab3>>>pd.get_dummies(data=df,columns=['A','B'])CA_aA_bB_bB_c011.00.00.01.0120.01.00.01.0231.00.01.00.

python - pandas - 按行元素通过另一个数据框过滤数据框

我有一个数据框df1,它看起来像:ckl0A1a1A2b2B2a3C2a4C2d还有一个叫df2像:cl0Ab1Ca我想过滤df1只保留不在df2中的值。要过滤的值应为(A,b)和(C,a)元组。到目前为止,我尝试应用isin方法:d=df[~(df['l'].isin(dfc['l'])&df['c'].isin(dfc['c']))]这在我看来太复杂了,它返回:ckl2B2a4C2d但我期待:ckl0A1a2B2a4C2d 最佳答案 您可以在从所需列构造的多索引上使用isin有效地做到这一点:df1=pd.DataFrame({

python - pandas - 按行元素通过另一个数据框过滤数据框

我有一个数据框df1,它看起来像:ckl0A1a1A2b2B2a3C2a4C2d还有一个叫df2像:cl0Ab1Ca我想过滤df1只保留不在df2中的值。要过滤的值应为(A,b)和(C,a)元组。到目前为止,我尝试应用isin方法:d=df[~(df['l'].isin(dfc['l'])&df['c'].isin(dfc['c']))]这在我看来太复杂了,它返回:ckl2B2a4C2d但我期待:ckl0A1a2B2a4C2d 最佳答案 您可以在从所需列构造的多索引上使用isin有效地做到这一点:df1=pd.DataFrame({

python - 将 StringIndexer 应用于 PySpark Dataframe 中的多个列

我有一个PySpark数据框+-------+--------------+----+----+|address|date|name|food|+-------+--------------+----+----+|1111111|20151122045510|Yin|gre||1111111|20151122045501|Yin|gre||1111111|20151122045500|Yln|gra||1111112|20151122065832|Yun|ddd||1111113|20160101003221|Yan|fdf||1111111|20160703045231|Yin|gr