草庐IT

dataframe

全部标签

python - 将 pandas DataFrame 列添加到行的最佳方法

这个问题在这里已经有了答案:Meltingapandasdataframe(4个答案)Stackingdataframecolumns(Pandas)(1个回答)关闭4年前。我必须找到使用现有DataFrame创建新DataFrame的最佳方法。查看此链接以获得完整代码:jdoodle.com/a/xKP我有这种数据框:df=pd.DataFrame({'length':[112,214,52,88],'views':[10000,50000,25000,5000],'click':[55,64,85,9]},index=['id1','id2','id3','id4'])clickl

python - 访问 Pandas 数据框中内部多索引级别的最后一个元素

在multiindexpandasdataframe中,我想访问第二个索引的last元素以获取第一个索引的所有值。第二个索引中的级别数根据第一个索引的值而变化。我浏览了pandasmultiindexdocumentation但找不到能做到这一点的任何东西。例如,对于下面的数据框:arrays=[['bar','bar','baz','foo','foo','foo','qux'],['one','two','one','one','two','three','one']]tuples=list(zip(*arrays))index=pd.MultiIndex.from_tuples(

python - 以字符串元组作为索引的 Pandas DataFrame

我在这里感觉到一些奇怪的pandas行为。我有一个看起来像的数据框df=pd.DataFrame(columns=['Col1','Col2','Col3'],index=[('1','a'),('2','a'),('1','b'),('2','b')])In[14]:dfOut[14]:Col1Col2Col3(1,a)NaNNaNNaN(2,a)NaNNaNNaN(1,b)NaNNaNNaN(2,b)NaNNaNNaN我可以设置任意元素的值In[15]:df['Col2'].loc[('1','b')]=6In[16]:dfOut[16]:Col1Col2Col3(1,a)NaNN

python - CSV 数据(时间戳和事件)的时间序列图 : x-label constant

(本题可单独阅读,但为:TimeseriesfromCSVdata(Timestampandevents)的续集)我想使用python的pandas模块(参见下面的链接)通过时间序列表示来可视化CSV数据(来自2个文件)。df1的示例数据:TIMESTAMPeventid02017-03-2002:38:24112017-03-2105:59:41122017-03-2312:59:58132017-03-2401:00:07142017-03-2703:00:131“eventid”列始终包含值1,我试图显示数据集中每一天的事件总和。第二个数据集df0具有相似的结构,但仅包含零:df

python - 从现有数据框的某些列创建新的 Pandas 数据框

我已阅读将csv文件加载到pandas数据框中,并想对该数据框进行一些简单的操作。我不知道如何根据原始数据框中的选定列创建新的数据框。我的尝试:names=['A','B','C','D']dataset=pandas.read_csv('file.csv',names=names)new_dataset=dataset['A','D']我想用原始数据框中的A列和D列创建一个新数据框。 最佳答案 它被称为subset-在[]中传递的列列表:dataset=pandas.read_csv('file.csv',names=names)

Python:在多张纸上将 pandas DataFrame 写入 Excel 的最快方法

我需要将24个pandas数据框(140列x400行)导出到Excel,每个都导出到不同的工作表中。我正在使用pandas的内置ExcelWriter。运行24个场景,需要:51秒写入.xls文件(使用xlwt)86秒写入.xlsx文件(使用XlsxWriter)141秒写入.xlsm文件(使用openpyxl)仅运行程序需要21秒(无Excel输出)写入.xls的问题是电子表格不包含格式样式,因此如果我在Excel中打开它,选择一列,然后单击“逗号”按钮来格式化数字,它告诉我:“找不到样式逗号”。我在写入.xlsx时没有遇到这个问题,但这样更慢。关于如何使导出更快的任何建议?我不可能

python - Pandas :如何根据其他列值的条件对列求和?

我有以下pandasDataFrame。importpandasaspddf=pd.read_csv('filename.csv')print(df)dogABC0dog10.7875750.1593300.0530951dog100.7706980.1694870.0598152dog110.7926890.1520430.0552683dog120.7850660.1603610.0545734dog130.7954550.1504640.0540815dog140.7948730.1507000.054426......8dog190.8115850.1402070.048208

python - Pandas DataFrame 搜索是线性时间还是常数时间?

我有一个超过15000行的数据框对象df,例如:anime_idnamegenrerating1234KiminonawaRomance,Comedy9.315678Stiens;GateSci-fi8.92我正在尝试查找具有特定anime_id的行。a_id="5678"temp=(df.query("anime_id=="+a_id).genre)我只是想知道这个搜索是在常数时间(如字典)还是线性时间(如列表)中完成的。 最佳答案 这是一个非常有趣的问题!我觉得取决于以下几个方面:按索引访问单行(索引已排序且唯一)应该有运行时O

python - Pandas 如何处理类型为 "object"的列与整数进行比较的情况?

我的问题是关于pandas用于将类型为“对象”的列与整数进行比较的规则。这是我的代码:In[334]:dfOut[334]:c1c2c3c4id11li-0.3678605id22zhao-0.5969265id33sun0.4938065id44wang-0.3114075id55wang0.2536465In[335]:df为什么所有“c2”列都得到True?附言我也试过:In[333]:np.less(np.array(["s","b"]),2)Out[333]:NotImplemented 最佳答案 对于DataFrame,

python - 将 pandas groupby 结果合并回 DataFrame

我有一个看起来像这样的DataFrame...idnvalue0ID1251ID1302ID2303ID250我想在此框架中添加另一列,即按“idn”分组的最大“值”我想要这样的结果。idnvaluemax_val0ID125301ID130302ID230503ID25050我可以像这样使用组来提取“值”的最大值...df[['idn','value']].groupby('idn')['value'].max()但是,我无法将该结果合并回原始DataFrame。获得预期结果的最佳方法是什么?谢谢 最佳答案 对groupby对象使