Pandas-Datareader

python - 以字符串元组作为索引的 Pandas DataFrame

我在这里感觉到一些奇怪的pandas行为。我有一个看起来像的数据框df=pd.DataFrame(columns=['Col1','Col2','Col3'],index=[('1','a'),('2','a'),('1','b'),('2','b')])In[14]:dfOut[14]:Col1Col2Col3(1,a)NaNNaNNaN(2,a)NaNNaNNaN(1,b)NaNNaNNaN(2,b)NaNNaNNaN我可以设置任意元素的值In[15]:df['Col2'].loc[('1','b')]=6In[16]:dfOut[16]:Col1Col2Col3(1,a)NaNN

DataFrame python 39 NaN Col pandas indexing

python - 从现有数据框的某些列创建新的 Pandas 数据框

我已阅读将csv文件加载到pandas数据框中，并想对该数据框进行一些简单的操作。我不知道如何根据原始数据框中的选定列创建新的数据框。我的尝试:names=['A','B','C','D']dataset=pandas.read_csv('file.csv',names=names)new_dataset=dataset['A','D']我想用原始数据框中的A列和D列创建一个新数据框。最佳答案它被称为subset-在[]中传递的列列表:dataset=pandas.read_csv('file.csv',names=names)

python Pandas code dataset 39 dataframe

python - Pandas any() 返回 false 且存在 true 值

我有一个大部分为空的数据框，其中包含格式不正确的日期，我已将其转换为DateTime格式。fromioimportStringIOdata=StringIO("""issue_date,issue_date_dt,,19600215.0,1960-02-15,,""")df=pd.read_csv(data,parse_dates=[1])产生issue_dateissue_date_dt0NaNNaT1NaNNaT219600215.01960-02-153NaNNaT4NaNNaT我希望我可以使用df.any()来查找行或列中是否有值。axis=0的行为符合预期:df.any(ax

python Pandas code section False datetime

python - 在 Pandas 聚合函数中创建多列

我想在像内置的ohlc方法一样对pandasDataFrame进行重采样时创建多个列。defmhl(data):returnpandas.Series([np.mean(data),np.max(data),np.min(data)],index=['mean','high','low'])ts.resample('30Min',how=mhl)死于Exception:Mustproduceaggregatedvalue有什么建议吗？谢谢! 最佳答案您可以将函数字典传递给resample方法:In[35]:tsOut[35]:20

中创多列 01 2013 00 python pandas time-series

python - Pandas/PyTables 中的索引和数据列

http://pandas.pydata.org/pandas-docs/stable/io.html#indexing我对PandasHDF5IO中数据列的概念感到非常困惑。另外，在谷歌搜索上也找不到关于它的信息。由于我正在一个涉及HDF5存储的大型项目中深入研究Pandas，因此我想弄清楚这些概念。文档说:Youcandesignate(andindex)certaincolumnsthatyouwanttobeabletoperformqueries(otherthantheindexablecolumns,whichyoucanalwaysquery).Forinstances

和数 PyTables 39 code index python pandas

Python:在多张纸上将 pandas DataFrame 写入 Excel 的最快方法

我需要将24个pandas数据框(140列x400行)导出到Excel，每个都导出到不同的工作表中。我正在使用pandas的内置ExcelWriter。运行24个场景，需要:51秒写入.xls文件(使用xlwt)86秒写入.xlsx文件(使用XlsxWriter)141秒写入.xlsm文件(使用openpyxl)仅运行程序需要21秒(无Excel输出)写入.xls的问题是电子表格不包含格式样式，因此如果我在Excel中打开它，选择一列，然后单击“逗号”按钮来格式化数字，它告诉我:“找不到样式逗号”。我在写入.xlsx时没有遇到这个问题，但这样更慢。关于如何使导出更快的任何建议？我不可能

多张 DataFrame code strong section python excel pandas export output

python - Pandas :如何根据其他列值的条件对列求和？

我有以下pandasDataFrame。importpandasaspddf=pd.read_csv('filename.csv')print(df)dogABC0dog10.7875750.1593300.0530951dog100.7706980.1694870.0598152dog110.7926890.1520430.0552683dog120.7850660.1603610.0545734dog130.7954550.1504640.0540815dog140.7948730.1507000.054426......8dog190.8115850.1402070.048208

求和 python code 39 dog pandas dataframe conditional-statements

python - 索引在 Pandas 中是如何工作的？

我是python新手。这似乎是一个要问的基本问题。但我真的很想了解这里发生了什么importnumpyasnpimportpandasaspdtempdata=np.random.random(5)myseries_one=pd.Series(tempdata)myseries_two=pd.Series(data=tempdata,index=['a','b','c','d','e'])myseries_three=pd.Series(data=tempdata,index=[10,11,12,13,14])myseries_oneOut[1]:00.29129310.3810142

python Pandas code myseries myseries_three

python - Pandas DataFrame 搜索是线性时间还是常数时间？

我有一个超过15000行的数据框对象df，例如:anime_idnamegenrerating1234KiminonawaRomance,Comedy9.315678Stiens;GateSci-fi8.92我正在尝试查找具有特定anime_id的行。a_id="5678"temp=(df.query("anime_id=="+a_id).genre)我只是想知道这个搜索是在常数时间(如字典)还是线性时间(如列表)中完成的。最佳答案这是一个非常有趣的问题!我觉得取决于以下几个方面:按索引访问单行(索引已排序且唯一)应该有运行时O

DataFrame python code strong timeit pandas search time-complexity

python - Pandas 如何处理类型为 "object"的列与整数进行比较的情况？

我的问题是关于pandas用于将类型为“对象”的列与整数进行比较的规则。这是我的代码:In[334]:dfOut[334]:c1c2c3c4id11li-0.3678605id22zhao-0.5969265id33sun0.4938065id44wang-0.3114075id55wang0.2536465In[335]:df为什么所有“c2”列都得到True？附言我也试过:In[333]:np.less(np.array(["s","b"]),2)Out[333]:NotImplemented 最佳答案对于DataFrame，

amp 何处 code True False python pandas dataframe comparison-operators

79 80 818283 84 85