pyhton_Pandas

python - Pandas 查询函数不适用于列名中的空格

我有一个数据框，列名中有空格。我正在尝试使用query方法来获取结果。它在“c”列上工作正常，但在“ab”上出现错误importpandasaspda=pd.DataFrame(columns=["ab","c"])a["ab"]=[1,2,3,4]a["c"]=[5,6,7,8]a.query('ab==5')为此，我收到此错误:ab==5^SyntaxError:invalidsyntax我不想用“_”等其他字符填充空间。有一个hack使用pandasql将变量名放在括号内示例:[ab] 最佳答案从pandas0.25开始，您

列名 python section code sql pandas dataframe

python - 两个 Pandas 数据框的联合

假设我有两个数据框:df1:A0a1bdf2:A0a1c我希望结果是两个帧的并集，额外列显示该行所属的源数据帧。如果有重复项，应删除重复项，并且相应的额外列应显示两个来源:AB0adf1,df21bdf12cdf2我可以获得没有重复的连接数据框(df3)，如下所示:importpandasaspddf3=pd.concat([df1,df2],ignore_index=True).drop_duplicates().reset_index(drop=True)我想不出/找不到一种方法来控制元素的位置。如何添加额外的列？非常感谢您的任何提示。最佳答案

python Pandas code section 39 dataframe merge concatenation

python - Pandas DataFrame 索引的自动递增选项

有没有办法在添加新行时设置一个选项来自动增加pandas.DataFrame的索引，或者定义一个函数来管理新索引的创建？最佳答案当append时，您可以设置ignore_index=True-ing:In[1]:df=pd.DataFrame([[1,2],[3,4]])In[2]:row=pd.Series([5,6])In[3]:df.append(row,ignore_index=True)Out[3]:01012134256 关于python-PandasDataFrame索

DataFrame python section code indexing append row pandas

python - 在 Pandas 数据框中找到条纹

我有一个Pandas数据框如下:timewinnerloserstat1AB02CB03DB14EB05FA06GA07HA08IA1每一行是一个匹配结果。第一列是比赛时间，第二列和第三列包含赢家/输家，第四列是比赛的一个统计数据。我想检测每个失败者的此统计数据的零条纹。预期的结果应该是这样的:timewinnerloserstatstreak1AB012CB023DB104EB015FA016GA027HA038IA10在伪代码中，算法应该像这样工作:.groupby失败者列。然后遍历每个失败者组的每一行在每一行中，查看stat列:如果它包含0，则将上一行的streak值增加0。如果

条纹 python code pandas 39 dataframe

python - 使用 pandas 数据帧中的前向和后向填充填充缺失值(ffill 和 bfill)

Pandas数据框初学者。我在下面设置了此数据集，其中A列和B列(Test.csv)缺少值:DateTimeAB01-01-201703:2701-01-201703:2801-01-201703:290.18127718-0.17883573701-01-201703:300.186923018-0.18326085301-01-201703:3101-01-201703:3201-01-201703:330.18127718-0.178835737我可以使用此代码通过前向传播来填充值，但这只会填充03:31和03:32，而不是03:27和03:28。importpandasaspd

缺失 python 2017 01 code pandas dataframe

python - 根据 bool 向量组合 2 个 pandas 数据帧

我的问题如下:假设我有两个数据框，它们在Pandas中的列数相同，例如:A=123489和B=7840还有一个bool向量，其长度恰好是A行数+B行数=5，1的数量与B中的行数相同，这意味着两个本例中为1。假设Bool=01010。然后我的目标是将A和B合并到一个更大的名为C的数据帧中，这样B的行对应于Bool中的1，所以在这个例子中它会给我:C=1278344089请问你知道怎么做吗？如果你知道这将如何帮助我。感谢您的阅读。最佳答案这是一个pandas-only解决方案，它重新索引原始数据帧，然后将它们连接起来:Bool=pd

python pandas code section Bool

python - 在 pandas DataFrame 中快速应用字符串操作

假设我有一个DataFrame，它有10万行和一列name。我想尽可能有效地将这个名字分成名字和姓氏。我目前的方法是，defsplitName(name):returnpandas.Series(name.split()[0:2])df[['first','last']]=df.apply(lambdax:splitName(x['name']),axis=1)不幸的是，DataFrame.apply真的非常慢。我能做些什么来使这个字符串操作几乎和numpy操作一样快吗？谢谢! 最佳答案尝试(需要pandas>=0.8.1):sp

DataFrame python code section 39 pandas

python - 转换 hh :mm:ss to minutes using python pandas

我有一个数据框列，data['timetaken'];02:08:0002:05:0002:55:0003:42:0001:12:0001:46:0003:22:0003:36:00如何获得如下分钟形式的输出？12812517522272106202216 最佳答案假设这是一个字符串列，您可以使用str.split方法:In[11]:df['timetaken'].str.split(':')Out[11]:0[02,08,00]1[02,05,00]2[02,55,00]3[03,42,00]4[01,12,00]5[01,46

python minutes code section 00 pandas

python - Pandas 数据框的线性回归

我在pandas中有一个数据框，我正在使用它来生成散点图，并且想为该图包含一条回归线。现在我正在尝试使用polyfit来做到这一点。这是我的代码:importpandasaspdimportmatplotlibimportmatplotlib.pyplotaspltfromnumpyimport*table1=pd.DataFrame.from_csv('upregulated_genes.txt',sep='\t',header=0,index_col=0)table2=pd.DataFrame.from_csv('misson_genes.txt',sep='\t',header=

python Pandas 39 table table1 numpy matplotlib regression

python - 在 Pandas 数据框中按列计算数字的出现次数

我有一个pandas数据框，我想计算一个数字在每一列中出现的频率abcde023154113254213254324153424153这是我的代码，但不起作用defequalsOne(x):x[x.columns==1].sum()df1.apply(equalOne(),axis=1)这是期望的输出a2b0c3d0e0 最佳答案你可以这样做:(df==1).sum()df==1给出:abcde0FalseFalseTrueFalseFalse1TrueFalseFalseFalseFalse2TrueFalseFalseFals

python Pandas False code section

92 93 949596 97 98