pyspark-dataframes

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

空字符 DataFrame null col code python apache-spark apache-spark-sql pyspark

python - 为什么 DataFrame 的连接会呈指数级变慢？

我有一个处理DataFrame的函数，主要用于将数据处理到存储桶中，使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃)，我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列，每个df在df_list中。处理后，我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

DataFrame python code super_x performance pandas concatenation processing-efficiency

python - 为什么 DataFrame 的连接会呈指数级变慢？

我有一个处理DataFrame的函数，主要用于将数据处理到存储桶中，使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃)，我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列，每个df在df_list中。处理后，我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

DataFrame python code super_x performance pandas concatenation processing-efficiency

python - Pandas DataFrames 中的平等 - 列顺序很重要？

作为单元测试的一部分，我需要测试两个DataFrame是否相等。DataFrames中列的顺序对我来说并不重要。然而，这对Pandas来说似乎很重要:importpandasdf1=pandas.DataFrame(index=[1,2,3,4])df2=pandas.DataFrame(index=[1,2,3,4])df1['A']=[1,2,3,4]df1['B']=[2,3,4,5]df2['B']=[2,3,4,5]df2['A']=[1,2,3,4]df1==df2结果:Exception:Canonlycompareidentically-labeledDataFrame

DataFrames 平等 code section DataFrame python pandas

python - Pandas DataFrames 中的平等 - 列顺序很重要？

作为单元测试的一部分，我需要测试两个DataFrame是否相等。DataFrames中列的顺序对我来说并不重要。然而，这对Pandas来说似乎很重要:importpandasdf1=pandas.DataFrame(index=[1,2,3,4])df2=pandas.DataFrame(index=[1,2,3,4])df1['A']=[1,2,3,4]df1['B']=[2,3,4,5]df2['B']=[2,3,4,5]df2['A']=[1,2,3,4]df1==df2结果:Exception:Canonlycompareidentically-labeledDataFrame

DataFrames 平等 code section DataFrame python pandas

python - 检查 DataFrame 中的哪些列是分类的

我是Pandas的新手...当我不手动指定时，我想要一种简单而通用的方法来查找我的DataFrame中哪些列是categorical每个列类型，不像thisSOquestion.df使用以下命令创建:importpandasaspddf=pd.read_csv("test.csv",header=None)例如0123401.5392400.423437-0.687014ChicagoSafari10.8153360.9136231.800160BostonSafari20.821214-0.8248390.483724NewYorkSafari.更新(2018/02/04)问题假设数

DataFrame python code section stackoverflow pandas

python - 检查 DataFrame 中的哪些列是分类的

我是Pandas的新手...当我不手动指定时，我想要一种简单而通用的方法来查找我的DataFrame中哪些列是categorical每个列类型，不像thisSOquestion.df使用以下命令创建:importpandasaspddf=pd.read_csv("test.csv",header=None)例如0123401.5392400.423437-0.687014ChicagoSafari10.8153360.9136231.800160BostonSafari20.821214-0.8248390.483724NewYorkSafari.更新(2018/02/04)问题假设数

DataFrame python code section stackoverflow pandas

python - 从 pySpark 中的 dict 构建一行

我正在尝试在pySpark1.6.1中动态构建一行，然后将其构建到数据框中。总体思路是将describe的结果扩展为包括例如偏斜和峰度。这是我认为应该起作用的方法:frompyspark.sqlimportRowrow_dict={'C0':-1.1990072635132698,'C3':0.12605772684660232,'C4':0.5760856026559944,'C5':0.1951877800894315,'C6':24.72378589441825,'summary':'kurtosis'}new_row=Row(row_dict)但这会返回TypeError:se

pySpark python 39 code section apache-spark

python - 从 pySpark 中的 dict 构建一行

我正在尝试在pySpark1.6.1中动态构建一行，然后将其构建到数据框中。总体思路是将describe的结果扩展为包括例如偏斜和峰度。这是我认为应该起作用的方法:frompyspark.sqlimportRowrow_dict={'C0':-1.1990072635132698,'C3':0.12605772684660232,'C4':0.5760856026559944,'C5':0.1951877800894315,'C6':24.72378589441825,'summary':'kurtosis'}new_row=Row(row_dict)但这会返回TypeError:se

pySpark python 39 code section apache-spark