dataframe_草庐IT

python - 如果 pandas dataframe.loc 位置不存在，则返回默认值

我发现自己经常需要在尝试引用之前检查数据框中是否存在列或行。例如，我最终添加了很多代码，例如:if'mycol'indf.columnsand'myindex'indf.index:x=df.loc[myindex,mycol]else:x=mydefault有什么方法可以更好地做到这一点？例如，在任意对象上，我可以执行x=getattr(anobject,'id',default)-pandas中有类似的东西吗？真的有什么方法可以更优雅地实现我正在做的事情吗？最佳答案有一个Series的方法:所以你可以这样做:df.mycol

python - 如何分析此 Pandas DataFrame 中的所有重复条目？

我希望能够计算PandasDataFrame中数据的描述性统计数据，但我只关心重复的条目。例如，假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见，第0、1、3、4、6和7行都是

条目 DataFrame code key 39 python pandas

python - 如何分析此 Pandas DataFrame 中的所有重复条目？

我希望能够计算PandasDataFrame中数据的描述性统计数据，但我只关心重复的条目。例如，假设我有由以下人员创建的DataFrame:importpandasaspddata={'key1':[1,2,3,1,2,3,2,2],'key2':[2,2,1,2,2,4,2,2],'data':[5,6,2,6,1,6,2,8]}frame=pd.DataFrame(data,columns=['key1','key2','data'])printframekey1key2data01251226231231264221534662227228如您所见，第0、1、3、4、6和7行都是

条目 DataFrame code key 39 python pandas

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

空字符 DataFrame null col code python apache-spark apache-spark-sql pyspark

python - 用 DataFrame 中的 None/null 值替换空字符串

我有一个Spark1.5.0DataFrame在同一列中混合使用null和空字符串。我想将所有列中的所有空字符串转换为null(None，在Python中)。DataFrame可能有数百列，因此我试图避免对每一列进行硬编码操作。请参阅下面的尝试，这会导致错误。frompyspark.sqlimportSQLContextsqlContext=SQLContext(sc)##CreateatestDataFrametestDF=sqlContext.createDataFrame([Row(col1='foo',col2=1),Row(col1='',col2=2),Row(col1=N

空字符 DataFrame null col code python apache-spark apache-spark-sql pyspark

python - 带有 bin 计数的 Pandas groupby

我有一个如下所示的DataFrame:+----------+---------+-------+|username|post_id|views|+----------+---------+-------+|john|1|3||john|2|23||john|3|44||john|4|82||jane|7|5||jane|8|25||jane|9|46||jane|10|56|+----------+---------+-------+我想将其转换为对属于某些bin的View进行计数，如下所示:+------+------+-------+-------+--------+||1-10

groupby python code section pre pandas dataframe pandas-groupby

python - 带有 bin 计数的 Pandas groupby

我有一个如下所示的DataFrame:+----------+---------+-------+|username|post_id|views|+----------+---------+-------+|john|1|3||john|2|23||john|3|44||john|4|82||jane|7|5||jane|8|25||jane|9|46||jane|10|56|+----------+---------+-------+我想将其转换为对属于某些bin的View进行计数，如下所示:+------+------+-------+-------+--------+||1-10

groupby python code section pre pandas dataframe pandas-groupby

python - 为什么 DataFrame 的连接会呈指数级变慢？

我有一个处理DataFrame的函数，主要用于将数据处理到存储桶中，使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃)，我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列，每个df在df_list中。处理后，我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

DataFrame python code super_x performance pandas concatenation processing-efficiency

python - 为什么 DataFrame 的连接会呈指数级变慢？

我有一个处理DataFrame的函数，主要用于将数据处理到存储桶中，使用pd.get_dummies(df[col])在特定列中创建特征的二进制矩阵。为了避免一次使用此函数处理我的所有数据(内存不足并导致iPython崩溃)，我使用以下方法将大型DataFrame分成block:chunks=(len(df)/10000)+1df_list=np.array_split(df,chunks)pd.get_dummies(df)将根据df[col]的内容自动创建新列，每个df在df_list中。处理后，我将使用以下方法将DataFrame连接在一起:fori,df_chunkinenum

DataFrame python code super_x performance pandas concatenation processing-efficiency

python - 在 Python pandas 中，从 1 而不是 0 开始行索引而不创建额外的列

我知道我可以像这样重置索引df.reset_index(inplace=True)但这将从0开始索引。我想从1开始。如何在不创建任何额外列并保留index/reset_index功能和选项的情况下做到这一点？我确实不想创建一个新的数据框，所以inplace=True应该仍然适用。最佳答案直接分配一个新的索引数组即可:df.index=np.arange(1,len(df)+1)例子:In[151]:df=pd.DataFrame({'a':np.random.randn(5)})dfOut[151]:a00.44363810.0

python code index section pandas indexing dataframe