Dataframe

python - Pandas DataFrame 的嵌套(双)行逐行迭代

您好，我正在尝试为迭代问题找到一个矢量化(或更有效)的解决方案，我找到的唯一解决方案需要对具有多个循环的DataFrame进行逐行迭代。实际数据文件很大，所以我目前的解决方案几乎不可行。如果您想看一下，我在最后包含了线路分析器输出。真正的问题是相当复杂的，所以我将尝试用一个简单的例子来解释它(我花了很长时间来简化它:)):假设我们有一个机场，有两个并排的着陆跑道。每架飞机降落(到达时间)，在其中一个着陆跑道上滑行一段时间，然后起飞(起飞时间)。所有内容都存储在按到达时间排序的PandasDataFrame中，如下所示(有关更大的测试数据集，请参见EDIT2):PLANESTRIPARR

DataFrame python code 39 sets pandas loops vectorization

python - 连接一个 dask 数据框和一个 pandas 数据框

我有一个dask数据框(df)，其中包含大约2.5亿行(来自10GbCSV文件)。我有另一个25,000行的Pandas数据框(ndf)。我想通过将每个项目重复10,000次来将pandas数据框的第一列添加到dask数据框。这是我试过的代码。我已将问题缩小到更小的范围。importdask.dataframeasddimportpandasaspdimportnumpyasnppd.DataFrame(np.random.rand(25000,2)).to_csv("tempfile.csv")df=dd.read_csv("tempfile.csv")ndf=pd.DataFram

python pandas code section index dataframe dask

python - Pandas 将 Dataframe 转换为嵌套的 Json

我的问题基本上与这个问题相反:CreateaPandasDataFramefromdeeplynestedJSON我想知道是否可以进行相反的操作。给定一个表格:LibraryLevelSchoolMajor2013Total200MS_AVERYUGRADGENERALSTUDIESGEST5079201MS_AVERYUGRADGENERALSTUDIESHIST5202MS_AVERYUGRADGENERALSTUDIESMELC2203MS_AVERYUGRADGENERALSTUDIESPHIL10204MS_AVERYUGRADGENERALSTUDIESPHYS1205MS

Dataframe python 39 MS_AVERY section json dictionary pandas

python - 何时使用 DataFrame.eval() 与 pandas.eval() 或 Python eval()

我有几十个条件(例如，foo>bar)需要在DataFrame的~1MM行上进行评估，最简洁的方法编写此代码是为了将这些条件存储为字符串列表，并创建bool结果的DataFrame(每条记录一行x每个条件一列)。(用户输入不被评估。)在寻求过早优化的过程中，我试图确定是否应该在DataFrame中编写这些评估条件(例如，df.eval("foo>bar")或将其留给Python，如eval("df.foo>df.bar")根据documentationonenhancingevalperformance:Youshouldnotuseeval()forsimpleexpressions

eval DataFrame code someDf python performance pandas

python - 减去数据帧 Pandas 时的NaN

我有两个数据框，它们的索引和列只是有些重叠。old=pd.DataFrame(index=['A','B','C'],columns=['k','l','m'],data=abs(np.floor(np.random.rand(3,3)*10)))new=pd.DataFrame(index=['A','B','C','D'],columns=['k','l','m','n'],data=abs(np.floor(np.random.rand(4,4)*10)))我想计算它们和试过的区别delta=new-old这会产生很多索引和列不匹配的NaN。我想将索引和列的缺失视为零，(old[

python Pandas 39 section code dataframe subtraction

python - 具有分层索引的 DataFrame 中的列断言错误

另一个Pandas问题:我有这个带有分层索引的表:In[51]:frompandasimportDataFramef=DataFrame({'a':['1','2','3'],'b':['2','3','4']})f.columns=[['level1item1','level1item2'],['','level2item2'],['level3item1','level3item2']]fOut[51]:level1item1level1item2level2item2level3item1level3item2012123234碰巧选择level1item1会产生如下错误:In[

DataFrame python 39 returns Taxable pandas hierarchical

python - 按 MultiIndex 级别或子级别切片 pandas DataFrame

灵感来自thisanswer并且缺乏对thisquestion的简单答案我发现自己编写了一些语法糖，以便更轻松地按MultiIndex级别进行过滤。def_filter_series(x,level_name,filter_by):"""Filterapd.Seriesorpd.DataFramexby`filter_by`ontheMultiIndexlevel`level_name`Uses`pd.Index.get_level_values()`inthebackground.`filter_by`iseitherastringoraniterable."""ifisinstan

级别 MultiIndex filter_by filter section python pandas

python - Pandas 在行上设置多索引，然后转置到列

如果我有一个简单的数据框:print(a)onetwothree0A1a1A2b2B1c3B2d4C1e5C2f我可以通过发出以下命令轻松地在行上创建多索引:a.set_index(['one','two'])threeonetwoA1a2bB1c2dC1e2f是否有类似的简单方法来在列上创建多索引？我想结束:oneABCtwo1212120abcdef在这种情况下，创建行多索引然后转置它会非常简单，但在其他示例中，我会想要在行和列上创建多索引。最佳答案是的!这称为换位。a.set_index(['one','two']).T让

多索在行 39 section python pandas dataframe transpose multi-index

python - 检查 Pandas 数据框是否是其他数据框的子集

我有两个PythonPandas数据框A、B，它们具有相同的列(显然具有不同的数据)。我想检查A是B的子集，即A的所有行都包含在B中。知道怎么做吗？最佳答案方法DataFrame.merge(another_DF)默认情况下在列的交集处合并(使用两个DF中具有相同名称的所有列)并使用how='inner'-所以我们希望在inner之后有相同的行数join(如果两个DF都没有重复项):len(A.merge(B))==len(A)PS如果其中一个DF有重复的行，它将无法正常工作-这种情况见下文演示:In[128]:AOut[128

python Pandas code section merge dataframe

python - pickle Pandas DataFrame 的最快方法是什么？

使用Pandas内置方法或pickle.dump哪个更好？标准的pickle方法如下所示:pickle.dump(my_dataframe,open('test_pickle.p','wb'))Pandas内置方法如下所示:my_dataframe.to_pickle('test_pickle.p') 最佳答案感谢@qwwqwwq，我发现pandas有一个用于数据帧的内置to_pickle方法。我做了一个快速时间测试:In[1]:%timeitpickle.dump(df,open('test_pickle.p','wb'))10

DataFrame 最快 pickle section code python pandas

48 49 505152 53 54