pyspark-dataframes

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做？最佳答案这里有一个优化的方式来解析带有re的文件，首先获取ID，然后解析数据元组。

DataFrame 本文 code gt 34 python pandas

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数，为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典，我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

中高 DataFrame abc code category python pandas

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数，为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典，我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

中高 DataFrame abc code category python pandas

python - 根据对象的类型(即 str)从 DataFrame 中选择行

所以有一个DataFrame说:>>>df=pd.DataFrame({...'A':[1,2,'Three',4],...'B':[1,'Two',3,4]})>>>dfAB01112Two2Three3344我想选择特定列的特定行的数据类型为str类型的行。例如，我想选择A列中数据的type是str的行。所以它应该打印类似的东西:AB2Three3谁的直观代码是这样的:df[type(df.A)==str]这显然行不通!谢谢，请帮忙! 最佳答案这个有效:df[df['A'].apply(lambdax:isinstance(x

中选 DataFrame code section pre python pandas

python - 根据对象的类型(即 str)从 DataFrame 中选择行

所以有一个DataFrame说:>>>df=pd.DataFrame({...'A':[1,2,'Three',4],...'B':[1,'Two',3,4]})>>>dfAB01112Two2Three3344我想选择特定列的特定行的数据类型为str类型的行。例如，我想选择A列中数据的type是str的行。所以它应该打印类似的东西:AB2Three3谁的直观代码是这样的:df[type(df.A)==str]这显然行不通!谢谢，请帮忙! 最佳答案这个有效:df[df['A'].apply(lambdax:isinstance(x

中选 DataFrame code section pre python pandas

python - 如何在 PySpark 中使用窗口函数？

我正在尝试对数据框使用一些Windows函数(ntile和percentRank)，但我不知道如何使用它们。谁能帮我解决这个问题？在PythonAPIdocumentation没有关于它的例子。具体来说，我正在尝试获取数据框中数字字段的分位数。我正在使用spark1.4.0。最佳答案要使用窗口函数，您必须先创建一个窗口。定义与普通SQL几乎相同，这意味着您可以定义顺序、分区或两者。首先让我们创建一些虚拟数据:importnumpyasnpnp.random.seed(1)keys=["foo"]*10+["bar"]*10val

何在 PySpark code section ntile python sql apache-spark window-functions

python - 如何在 PySpark 中使用窗口函数？

我正在尝试对数据框使用一些Windows函数(ntile和percentRank)，但我不知道如何使用它们。谁能帮我解决这个问题？在PythonAPIdocumentation没有关于它的例子。具体来说，我正在尝试获取数据框中数字字段的分位数。我正在使用spark1.4.0。最佳答案要使用窗口函数，您必须先创建一个窗口。定义与普通SQL几乎相同，这意味着您可以定义顺序、分区或两者。首先让我们创建一些虚拟数据:importnumpyasnpnp.random.seed(1)keys=["foo"]*10+["bar"]*10val

何在 PySpark code section ntile python sql apache-spark window-functions

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题，我已经检查了所有的答案，我也试了好几次都没有找到解决办法。事实上，我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时，我会显示第一列和第二列。然而，当我输入data.Number时，每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

AttributeError amp code section 39 python csv pandas

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题，我已经检查了所有的答案，我也试了好几次都没有找到解决办法。事实上，我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时，我会显示第一列和第二列。然而，当我输入data.Number时，每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

AttributeError amp code section 39 python csv pandas

python - pandas.DataFrame 中一列的反向累积总和

我有一个pandasDataFrame，其中一个bool列按另一列排序，需要计算bool列的反向累积和，即从当前行到底部的真实值的数量。例子In[13]:df=pd.DataFrame({'A':[True]*3+[False]*5,'B':np.random.rand(8)})In[15]:df=df.sort_values('B')In[16]:dfOut[16]:AB6False0.0377102True0.3154144False0.3324807False0.4455053False0.5801561True0.7415515False0.7969440True0.81756

反向 DataFrame code False 39 python pandas reverse