草庐IT

Pandas-Datareader

全部标签

python - Pandas 与 Numpy 数据帧

看看这几行代码:df2=df.copy()df2[1:]=df[1:]/df[:-1].values-1df2.ix[0,:]=0我们的讲师说我们需要使用.values属性来访问底层的numpy数组,否则我们的代码将无法运行。我知道pandasDataFrame确实有一个作为numpy数组的底层表示,但我不明白为什么我们不能仅使用切片直接在pandasDataFrame上操作。你能解释一下吗? 最佳答案 pandas专注于表格数据结构,在执行操作(加法、减法等)时,它会查看标签-而不是位置。考虑以下DataFrame:df=pd.D

python - 从 Pandas 写入 Excel 时设置默认数字格式

我希望在从Pandas数据框写入Excel时设置默认数字格式。这可能吗?我可以使用以下设置默认日期/datetime_format,但找不到设置默认数字格式的方法。writer=pd.ExcelWriter(f'{file_variable}.xlsx',engine='xlsxwriter',datetime_format='MM/DD/YYYY')否则,我假设我必须将工作表分配给变量并循环遍历指定列的行以设置数字格式。 最佳答案 我得到了这种格式,float到小数点后一位。data={'APrime':{0:3.26,1:3.2

python - 在 Pandas 中使用 SQLAlchemy 清理数据库连接

使用Pandas,我可以非常轻松地将数据从数据库读取到数据框中:fromsqlalchemyimportcreate_engineimportpandasquery='SELECT*FROMTable_Name;'engine=create_engine('...')df=pandas.read_sql_query(query,engine)print(df.head())我想确保在执行.read_sql_query()后没有连接保持打开状态,无论查询是否成功或是否引发异常。我现在:使用函数来限制引擎的范围。我只希望每半小时调用一次此函数,因此我不介意重新创建引擎,如果这有助于确保所有

python - 如何以半小时为间隔划分 Pandas 日期时间列

我有如下所示的Pandas数据框datevalue2018-02-1217:30:00232018-02-1217:34:00452018-02-1217:36:00232018-02-1217:45:00562018-02-1218:37:0054所需的Pandas数据框datevaluehalf_hourly_bucket2018-02-1217:30:002317:30-17:592018-02-1217:34:004517:30-17:592018-02-1217:36:002317:30-17:592018-02-1217:45:005617:30-17:592018-02-

python - 如何舍入 Pandas 数据框中的日期时间索引?

有一个像这样的pandas数据框:index2018-06-0102:50:00R45.48-2.82018-06-0107:13:00R45.85-2.0...2018-06-0108:37:00R45.87-2.7我想像这样将索引四舍五入到小时:index2018-06-0102:00:00R45.48-2.82018-06-0107:00:00R45.85-2.0...2018-06-0108:00:00R45.87-2.7我正在尝试以下代码:df=df.date_time.apply(lambdax:x.round('H'))但返回一个系列而不是具有修改索引列的数据框

python - Pandas +群

数据集包含4列,其中name是child的名字,yearofbirth表示child出生的年份,number表示以该特定名字命名的婴儿的数量。Forexample,entry1reads,intheyear1880,7065girlchildrenwerenamedMary.通过pandas,我试图找出每年哪个名字是最常用的。我的代码df.groupby(['yearofbirth']).agg({'number':'max'}).reset_index()以上代码部分回答了手头的问题。我想要名称和最大数量。 最佳答案 基于this

python - 通过 np.char.find 比较 pandas 数据帧的两列给出 TypeError : string operation on non-string array

我想比较两个系列的字符串,看看一个是否包含另一个元素。我首先尝试使用apply,但它很慢:cols=['s1','s2']list_of_series=[pd.Series(['one','sdf'],index=cols),pd.Series(['two','xytwo'],index=cols)]df=pd.DataFrame(list_of_series,columns=cols)dfs1s20onesdf1twoxytwodf.apply(lambdarow:row['s1']inrow['s2'],axis=1)0False1Truedtype:bool它似乎适用于以下代码:

python - Pandas 到 Excel(合并标题列)

我想将我的df转换为excel工作表,但还想添加一个标题列来对所有列进行分类。用于复制:importpandasaspd#CreateaPandasdataframefromsomedata.df=pd.DataFrame({'Data':[10,20,30,20,15,30,45]})#CreateaPandasExcelwriterusingXlsxWriterastheengine.writer=pd.ExcelWriter('pandas_simple.xlsx',engine='xlsxwriter')#ConvertthedataframetoanXlsxWriterExc

python - Pandas 日期时间到 unix 时间戳秒

来自pandas.to_datetime的官方文档我们可以说,unit:string,default‘ns’unitofthearg(D,s,ms,us,ns)denotetheunit,whichisanintegerorfloatnumber.Thiswillbebasedofftheorigin.Example,withunit=’ms’andorigin=’unix’(thedefault),thiswouldcalculatethenumberofmillisecondstotheunixepochstart.所以当我这样尝试时,importpandasaspddf=pd.D

python - 当列值匹配时,Pandas Dataframe 从行中替换 Nan

我有数据框,即InputDataframeclasssectionsubmarksschoolcity0IAEng80jghsssalem1IAMat90jghsssalem2IAEng50Nansalem3IIIAEng80gphssNan4IIIAMat45Nansalem5IIIAEng40gphssNan6IIIAEng20gphsssalem7IIIAMat55gphssNan当“class”和“section”列中的值匹配时,我需要替换“school”和“city”中的“Nan”。结果应该是,输入数据框classsectionsubmarksschoolcity0IAEng