Dataframe

Python Pandas 添加文件名列 CSV

我的python代码在下面的例子中工作正常。我的代码结合了一个CSV文件目录并匹配标题。但是，我想更进一步-如何添加一个列来附加所用CSV的文件名？importpandasaspdimportglobglobbed_files=glob.glob("*.csv")#createsalistofallcsvfilesdata=[]#pd.concattakesalistofdataframesasanagrumentforcsvinglobbed_files:frame=pd.read_csv(csv)data.append(frame)bigframe=pd.concat(data,i

名列 Python code section csv pandas dataframe glob

python - reshape Pandas 数据框

假设有这样一个数据框:df=pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]],columns=['A','B','A1','B1'])我想要一个如下所示的数据框:什么不起作用:new_rows=int(df.shape[1]/2)*df.shape[0]new_cols=2df.values.reshape(new_rows,new_cols,order='F')当然我可以遍历数据并制作一个新的列表列表，但必须有更好的方法。有什么想法吗？最佳答案您可以使用lreshape,对于id列

reshape python code noreferrer section pandas dataframe lreshape

python - Pandas 查询函数不适用于列名中的空格

我有一个数据框，列名中有空格。我正在尝试使用query方法来获取结果。它在“c”列上工作正常，但在“ab”上出现错误importpandasaspda=pd.DataFrame(columns=["ab","c"])a["ab"]=[1,2,3,4]a["c"]=[5,6,7,8]a.query('ab==5')为此，我收到此错误:ab==5^SyntaxError:invalidsyntax我不想用“_”等其他字符填充空间。有一个hack使用pandasql将变量名放在括号内示例:[ab] 最佳答案从pandas0.25开始，您

列名 python section code sql pandas dataframe

python - 两个 Pandas 数据框的联合

假设我有两个数据框:df1:A0a1bdf2:A0a1c我希望结果是两个帧的并集，额外列显示该行所属的源数据帧。如果有重复项，应删除重复项，并且相应的额外列应显示两个来源:AB0adf1,df21bdf12cdf2我可以获得没有重复的连接数据框(df3)，如下所示:importpandasaspddf3=pd.concat([df1,df2],ignore_index=True).drop_duplicates().reset_index(drop=True)我想不出/找不到一种方法来控制元素的位置。如何添加额外的列？非常感谢您的任何提示。最佳答案

python Pandas code section 39 dataframe merge concatenation

python - Pandas DataFrame 索引的自动递增选项

有没有办法在添加新行时设置一个选项来自动增加pandas.DataFrame的索引，或者定义一个函数来管理新索引的创建？最佳答案当append时，您可以设置ignore_index=True-ing:In[1]:df=pd.DataFrame([[1,2],[3,4]])In[2]:row=pd.Series([5,6])In[3]:df.append(row,ignore_index=True)Out[3]:01012134256 关于python-PandasDataFrame索

DataFrame python section code indexing append row pandas

python - 枚举 DataFrame 中每个组的每一行

在pandas中，我如何添加一个新列来枚举基于给定分组的行？例如，假设有以下DataFrame:importpandasaspdimportnumpyasnpa_list=['A','B','C','A','A','C','B','B','A','C']df=pd.DataFrame({'col_a':a_list,'col_b':range(10)})dfcol_acol_b0A01B12C23A34A45C56B67B78A89C9我想添加col_c这给了我基于col_a的分组的“组”的第N行和排序col_b.期望的输出:col_acol_bcol_c0A013A324A438A8

DataFrame python code col 39 pandas running-count

python - 在 Pandas 数据框中找到条纹

我有一个Pandas数据框如下:timewinnerloserstat1AB02CB03DB14EB05FA06GA07HA08IA1每一行是一个匹配结果。第一列是比赛时间，第二列和第三列包含赢家/输家，第四列是比赛的一个统计数据。我想检测每个失败者的此统计数据的零条纹。预期的结果应该是这样的:timewinnerloserstatstreak1AB012CB023DB104EB015FA016GA027HA038IA10在伪代码中，算法应该像这样工作:.groupby失败者列。然后遍历每个失败者组的每一行在每一行中，查看stat列:如果它包含0，则将上一行的streak值增加0。如果

条纹 python code pandas 39 dataframe

python - 使用 pandas 数据帧中的前向和后向填充填充缺失值(ffill 和 bfill)

Pandas数据框初学者。我在下面设置了此数据集，其中A列和B列(Test.csv)缺少值:DateTimeAB01-01-201703:2701-01-201703:2801-01-201703:290.18127718-0.17883573701-01-201703:300.186923018-0.18326085301-01-201703:3101-01-201703:3201-01-201703:330.18127718-0.178835737我可以使用此代码通过前向传播来填充值，但这只会填充03:31和03:32，而不是03:27和03:28。importpandasaspd

缺失 python 2017 01 code pandas dataframe

python - 在 pandas DataFrame 中快速应用字符串操作

假设我有一个DataFrame，它有10万行和一列name。我想尽可能有效地将这个名字分成名字和姓氏。我目前的方法是，defsplitName(name):returnpandas.Series(name.split()[0:2])df[['first','last']]=df.apply(lambdax:splitName(x['name']),axis=1)不幸的是，DataFrame.apply真的非常慢。我能做些什么来使这个字符串操作几乎和numpy操作一样快吗？谢谢! 最佳答案尝试(需要pandas>=0.8.1):sp

DataFrame python code section 39 pandas

python - 如何获取 pandas.Series 或 pandas.DataFrame 中第 i 个项目的索引？

我正在尝试获取我拥有的Series中第6项的索引。这是头部的样子:UnitedStates1.536434e+13China6.348609e+12Japan5.542208e+12Germany3.493025e+12France2.681725e+12为了获取第6个索引名称(排序后的第6个国家/地区)，我通常使用s.head(6)并从那里获取第6个索引。s.head(6)给我:UnitedStates1.536434e+13China6.348609e+12Japan5.542208e+12Germany3.493025e+12France2.681725e+12UnitedKin

pandas DataFrame code section pre python series

46 47 484950 51 52