草庐IT

pyspark-dataframes

全部标签

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None,在Python中)。DataFrame可能有数百列,因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试,这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None,在Python中)。DataFrame可能有数百列,因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试,这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

python - 为什么 DataFrame 的连接会呈指数级变慢?

我有一个处理DataFrame的函数,主要用于将数据处理到存储桶中,使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃),我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列,每个df在df_list中。处理后,我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

python - 为什么 DataFrame 的连接会呈指数级变慢?

我有一个处理DataFrame的函数,主要用于将数据处理到存储桶中,使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃),我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列,每个df在df_list中。处理后,我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

python - Pandas DataFrames 中的平等 - 列顺序很重要?

作为单元测试的一部分,我需要测试两个DataFrame是否相等。DataFrames中列的顺序对我来说并不重要。然而,这对Pandas来说似乎很重要:importpandasdf1=pandas.DataFrame(index=[1,2,3,4])df2=pandas.DataFrame(index=[1,2,3,4])df1['A']=[1,2,3,4]df1['B']=[2,3,4,5]df2['B']=[2,3,4,5]df2['A']=[1,2,3,4]df1==df2结果:Exception:Canonlycompareidentically-labeledDataFrame

python - Pandas DataFrames 中的平等 - 列顺序很重要?

作为单元测试的一部分,我需要测试两个DataFrame是否相等。DataFrames中列的顺序对我来说并不重要。然而,这对Pandas来说似乎很重要:importpandasdf1=pandas.DataFrame(index=[1,2,3,4])df2=pandas.DataFrame(index=[1,2,3,4])df1['A']=[1,2,3,4]df1['B']=[2,3,4,5]df2['B']=[2,3,4,5]df2['A']=[1,2,3,4]df1==df2结果:Exception:Canonlycompareidentically-labeledDataFrame

python - 检查 DataFrame 中的哪些列是分类的

我是Pandas的新手...当我不手动指定时,我想要一种简单而通用的方法来查找我的DataFrame中哪些列是categorical每个列类型,不像thisSOquestion.df使用以下命令创建:importpandasaspddf=pd.read_csv("test.csv",header=None)例如0123401.5392400.423437-0.687014ChicagoSafari10.8153360.9136231.800160BostonSafari20.821214-0.8248390.483724NewYorkSafari.更新(2018/02/04)问题假设数

python - 检查 DataFrame 中的哪些列是分类的

我是Pandas的新手...当我不手动指定时,我想要一种简单而通用的方法来查找我的DataFrame中哪些列是categorical每个列类型,不像thisSOquestion.df使用以下命令创建:importpandasaspddf=pd.read_csv("test.csv",header=None)例如0123401.5392400.423437-0.687014ChicagoSafari10.8153360.9136231.800160BostonSafari20.821214-0.8248390.483724NewYorkSafari.更新(2018/02/04)问题假设数

python - 从 pySpark 中的 dict 构建一行

我正在尝试在pySpark1.6.1中动态构建一行,然后将其构建到数据框中。总体思路是将describe的结果扩展为包括例如偏斜和峰度。这是我认为应该起作用的方法:frompyspark.sqlimportRowrow_dict={'C0':-1.1990072635132698,'C3':0.12605772684660232,'C4':0.5760856026559944,'C5':0.1951877800894315,'C6':24.72378589441825,'summary':'kurtosis'}new_row=Row(row_dict)但这会返回TypeError:se

python - 从 pySpark 中的 dict 构建一行

我正在尝试在pySpark1.6.1中动态构建一行,然后将其构建到数据框中。总体思路是将describe的结果扩展为包括例如偏斜和峰度。这是我认为应该起作用的方法:frompyspark.sqlimportRowrow_dict={'C0':-1.1990072635132698,'C3':0.12605772684660232,'C4':0.5760856026559944,'C5':0.1951877800894315,'C6':24.72378589441825,'summary':'kurtosis'}new_row=Row(row_dict)但这会返回TypeError:se