草庐IT

pyspark-dataframes

全部标签

python - 将具有特殊格式的文本文档转换为 Pandas DataFrame

我有一个格式如下的文本文件:1:frack0.733,shale0.700,10:space0.645,station0.327,nasa0.258,4:celebr0.262,bahar0.345我需要将此文本转换为具有以下格式的DataFrame:IdTermweight1frack0.7331shale0.70010space0.64510station0.32710nasa0.2584celebr0.2624bahar0.345我该怎么做? 最佳答案 这里有一个优化的方式来解析带有re的文件,首先获取ID,然后解析数据元组。

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

python - 使用 .map() 在 pandas DataFrame 中高效地创建额外的列

我正在分析一个与以下示例形状相似的数据集。我有两种不同类型的数据(abc数据和xyz数据):abc1abc2abc3xyz1xyz2xyz301222121211211222122231211114112121我想创建一个函数,为数据框中存在的每个abc列添加一个分类列。使用列名列表和类别映射字典,我能够得到我想要的结果。abc_columns=['abc1','abc2','abc3']xyz_columns=['xyz1','xyz2','xyz3']abc_category_columns=['abc1_category','abc2_category','abc3_catego

python - 根据对象的类型(即 str)从 DataFrame 中选择行

所以有一个DataFrame说:>>>df=pd.DataFrame({...'A':[1,2,'Three',4],...'B':[1,'Two',3,4]})>>>dfAB01112Two2Three3344我想选择特定列的特定行的数据类型为str类型的行。例如,我想选择A列中数据的type是str的行。所以它应该打印类似的东西:AB2Three3谁的直观代码是这样的:df[type(df.A)==str]这显然行不通!谢谢,请帮忙! 最佳答案 这个有效:df[df['A'].apply(lambdax:isinstance(x

python - 根据对象的类型(即 str)从 DataFrame 中选择行

所以有一个DataFrame说:>>>df=pd.DataFrame({...'A':[1,2,'Three',4],...'B':[1,'Two',3,4]})>>>dfAB01112Two2Three3344我想选择特定列的特定行的数据类型为str类型的行。例如,我想选择A列中数据的type是str的行。所以它应该打印类似的东西:AB2Three3谁的直观代码是这样的:df[type(df.A)==str]这显然行不通!谢谢,请帮忙! 最佳答案 这个有效:df[df['A'].apply(lambdax:isinstance(x

python - 如何在 PySpark 中使用窗口函数?

我正在尝试对数据框使用一些Windows函数(ntile和percentRank),但我不知道如何使用它们。谁能帮我解决这个问题?在PythonAPIdocumentation没有关于它的例子。具体来说,我正在尝试获取数据框中数字字段的分位数。我正在使用spark1.4.0。 最佳答案 要使用窗口函数,您必须先创建一个窗口。定义与普通SQL几乎相同,这意味着您可以定义顺序、分区或两者。首先让我们创建一些虚拟数据:importnumpyasnpnp.random.seed(1)keys=["foo"]*10+["bar"]*10val

python - 如何在 PySpark 中使用窗口函数?

我正在尝试对数据框使用一些Windows函数(ntile和percentRank),但我不知道如何使用它们。谁能帮我解决这个问题?在PythonAPIdocumentation没有关于它的例子。具体来说,我正在尝试获取数据框中数字字段的分位数。我正在使用spark1.4.0。 最佳答案 要使用窗口函数,您必须先创建一个窗口。定义与普通SQL几乎相同,这意味着您可以定义顺序、分区或两者。首先让我们创建一些虚拟数据:importnumpyasnpnp.random.seed(1)keys=["foo"]*10+["bar"]*10val

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题,我已经检查了所有的答案,我也试了好几次都没有找到解决办法。事实上,我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时,我会显示第一列和第二列。然而,当我输入data.Number时,每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案 使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

python - 如何解决 AttributeError : 'DataFrame' object has no attribute

我知道以前有人问过这种问题,我已经检查了所有的答案,我也试了好几次都没有找到解决办法。事实上,我使用Pandas调用Dataframe。我已经上传了一个csv.file。当我键入data.Country和data.Year时,我会显示第一列和第二列。然而,当我输入data.Number时,每次它都会给我这个错误:AttributeError:'DataFrame'objecthasnoattribute'Number'. 最佳答案 使用data.columns检查您的DataFrame它应该打印这样的东西Index([u'regim

python - pandas.DataFrame 中一列的反向累积总和

我有一个pandasDataFrame,其中一个bool列按另一列排序,需要计算bool列的反向累积和,即从当前行到底部的真实值的数量。例子In[13]:df=pd.DataFrame({'A':[True]*3+[False]*5,'B':np.random.rand(8)})In[15]:df=df.sort_values('B')In[16]:dfOut[16]:AB6False0.0377102True0.3154144False0.3324807False0.4455053False0.5801561True0.7415515False0.7969440True0.81756