dataframe_草庐IT

python - Pandas DataFrame 性能

Pandas确实很棒，但我很惊讶从Pandas.DataFrame中检索值的效率如此之低。在下面的玩具示例中，即使是DataFrame.iloc方法也比字典慢100倍以上。问题:这里的教训仅仅是字典是查找值的更好方法吗？是的，我知道这正是它们的用途。但我只是想知道我是否缺少关于DataFrame查找性能的一些东西。我意识到这个问题比“询问”更“沉思”，但我会接受一个能提供洞察力或观点的答案。谢谢。importtimeitsetup='''importnumpy,pandasdf=pandas.DataFrame(numpy.zeros(shape=[10,10]))dictionary

DataFrame python value 39 dictionary pandas

python - Pandas DataFrame 性能

Pandas确实很棒，但我很惊讶从Pandas.DataFrame中检索值的效率如此之低。在下面的玩具示例中，即使是DataFrame.iloc方法也比字典慢100倍以上。问题:这里的教训仅仅是字典是查找值的更好方法吗？是的，我知道这正是它们的用途。但我只是想知道我是否缺少关于DataFrame查找性能的一些东西。我意识到这个问题比“询问”更“沉思”，但我会接受一个能提供洞察力或观点的答案。谢谢。importtimeitsetup='''importnumpy,pandasdf=pandas.DataFrame(numpy.zeros(shape=[10,10]))dictionary

DataFrame python value 39 dictionary pandas

python - 在 Spark 中更新数据框列

看新的sparkDataFrameAPI，不清楚是否可以修改dataframe列。我将如何更改数据框的x列y行中的值？在pandas中是:df.ix[x,y]=new_value编辑:合并下面所说的内容，您无法修改现有数据框，因为它是不可变的，但您可以返回具有所需修改的新数据框。如果您只想根据条件替换列中的值，例如np.where:frompyspark.sqlimportfunctionsasFupdate_func=(F.when(F.col('update_col')==replace_val,new_value).otherwise(F.col('update_col')))d

python Spark code column section dataframe apache-spark pyspark apache-spark-sql

python - 在 Spark 中更新数据框列

看新的sparkDataFrameAPI，不清楚是否可以修改dataframe列。我将如何更改数据框的x列y行中的值？在pandas中是:df.ix[x,y]=new_value编辑:合并下面所说的内容，您无法修改现有数据框，因为它是不可变的，但您可以返回具有所需修改的新数据框。如果您只想根据条件替换列中的值，例如np.where:frompyspark.sqlimportfunctionsasFupdate_func=(F.when(F.col('update_col')==replace_val,new_value).otherwise(F.col('update_col')))d

python Spark code column section dataframe apache-spark pyspark apache-spark-sql

python - 将 pandas DataFrame 转换为列表列表

这个问题在这里已经有了答案:PandasDataFrametoListofLists(13个回答)关闭2年前.我有一个这样的Pandas数据框:admitgpagrerank03.61380313.67660313.19640402.935204现在我想获取pandas中的行列表，例如:[[0,3.61,380,3],[1,3.67,660,3],[1,3.19,640,4],[0,2.93,520,4]]我该怎么做？最佳答案有一个内置方法也是最快的方法，在.valuesnp数组上调用tolist:df.values.tolis

DataFrame python section code stackoverflow pandas

python - 将 pandas DataFrame 转换为列表列表

这个问题在这里已经有了答案:PandasDataFrametoListofLists(13个回答)关闭2年前.我有一个这样的Pandas数据框:admitgpagrerank03.61380313.67660313.19640402.935204现在我想获取pandas中的行列表，例如:[[0,3.61,380,3],[1,3.67,660,3],[1,3.19,640,4],[0,2.93,520,4]]我该怎么做？最佳答案有一个内置方法也是最快的方法，在.valuesnp数组上调用tolist:df.values.tolis

DataFrame python section code stackoverflow pandas

python - 使用多列的 Pandas DataFrame 聚合函数

有没有一种方法可以编写一个在DataFrame.agg方法中使用的聚合函数，它可以访问多个正在聚合的数据列？典型的用例是加权平均、加权标准差函数。我希望能够写出类似的东西defwAvg(c,w):return((c*w).sum()/w.sum())df=DataFrame(....)#dfhascolumnscandw,iwantweightedaverage#ofcusingwasweight.df.aggregate({"c":wAvg})#andsomehowtellittousewcolumnasweights... 最佳答案

多列 DataFrame section code python pandas

python - 使用多列的 Pandas DataFrame 聚合函数

有没有一种方法可以编写一个在DataFrame.agg方法中使用的聚合函数，它可以访问多个正在聚合的数据列？典型的用例是加权平均、加权标准差函数。我希望能够写出类似的东西defwAvg(c,w):return((c*w).sum()/w.sum())df=DataFrame(....)#dfhascolumnscandw,iwantweightedaverage#ofcusingwasweight.df.aggregate({"c":wAvg})#andsomehowtellittousewcolumnasweights... 最佳答案

多列 DataFrame section code python pandas

python - 在 Pandas DataFrame 中用 None 替换无效值

有没有什么方法可以在Python中的Pandas中用None替换值？您可以使用df.replace('pre','post')并且可以将一个值替换为另一个值，但是如果您想用None替换，则无法这样做值，如果你尝试，你会得到一个奇怪的结果。下面是一个例子:df=DataFrame(['-',3,2,5,1,-5,-1,'-',9])df.replace('-',0)返回一个成功的结果。但是，df.replace('-',None)返回以下结果:00-//thisisn'treplaced132235415-56-17-1//thisischangedto`-1`...89为什么会返回这么

中用 DataFrame code None replace python pandas nan

python - 在 Pandas DataFrame 中用 None 替换无效值

有没有什么方法可以在Python中的Pandas中用None替换值？您可以使用df.replace('pre','post')并且可以将一个值替换为另一个值，但是如果您想用None替换，则无法这样做值，如果你尝试，你会得到一个奇怪的结果。下面是一个例子:df=DataFrame(['-',3,2,5,1,-5,-1,'-',9])df.replace('-',0)返回一个成功的结果。但是，df.replace('-',None)返回以下结果:00-//thisisn'treplaced132235415-56-17-1//thisischangedto`-1`...89为什么会返回这么

中用 DataFrame code None replace python pandas nan