Pandas-Datareader

python - pandas python 中没有名为 read_csv 的属性

我是机器学习的新手，正在使用Python中的pandas创建数据集。我查阅了一个教程，只是尝试了一个用于创建数据框的基本代码，但我不断收到以下回溯信息:AttributeError:'module'对象没有属性'read_csv'我已将Excel13中的csv文件保存为csv(逗号分隔)格式。这是我的代码:importpandasimportcsvmydata=pandas.read_csv('foo.csv')target=mydata["Label"]data=mydata.ix[:,:-1] 最佳答案工作目录中有一个名为pa

python 名为 section pandas code csv dataset attributeerror

python - 具有多个选择的 Pandas read_sql 查询

read_sql查询可以处理具有多个select语句的sql脚本吗？我有一个执行不同任务的MSSQL查询，但我不想为每种情况编写单独的查询。我只想编写一个查询并拉入多个表。我想在同一个脚本中进行多个查询，因为这些查询是相关的，这样可以更轻松地更新脚本。例如:SELECTColumnX_1,ColumnX_2,ColumnX_3FROMTable_XINNERJOIN(Etcetc...)----------------------SELECTColumnY_1,ColumnY_2,ColumnY_3FROMTable_YINNERJOIN(Etcetc...)这会导致两个单独的查询结果

read_sql python section ColumnX ColumnY sql sql-server python-3.x pandas

python - hdf5 文件到 pandas 数据框

我下载了一个存储在.h5文件中的数据集。我只需要保留某些列并能够操作其中的数据。为此，我尝试将其加载到pandas数据框中。我试过使用:pd.read_hdf(path)但我得到:HDF5文件中没有数据集。我在SO(readHDF5filetopandasDataFramewithconditions)上找到了答案，但我不需要条件，答案添加了有关文件编写方式的条件，但我不是文件的创建者，所以我做不到关于那个的任何事情。我也尝试过使用h5py:df=h5py.File(path)但这并不容易操作，我似乎无法从中获取列(仅使用df.keys()的列名)关于如何执行此操作的任何想法？

python pandas code section stackoverflow hdf5

Python - Pandas - 将 YYYYMM 转换为日期时间

初学者python(因此也是pandas)用户。我正在尝试将一些数据导入Pandas数据框。其中一列是日期，但格式为“YYYYMM”。我已尝试执行大多数论坛回复所建议的操作:df_cons['YYYYMM']=pd.to_datetime(df_cons['YYYYMM'],format='%Y%m')虽然这不起作用(ValueError:未转换的数据仍然存在:3)。该列实际上包括每年的附加值，MM=13。消息来源将此行用作过去一年的平均值。我猜to_datetime有问题。谁能提供一个快速的解决方案，要么去掉所有年平均值(最后两位数为“13”的那些)，要么让to_datetime忽略

Python Pandas code 39 YYYYMM

python - Pandas 的时间加权平均值

在Pandas0.8中计算TimeSeries的时间加权平均值的最有效方法是什么？例如，假设我想要df.y-df.x的时间加权平均值，如下所示:importpandasimportnumpyasnptimes=np.datetime64('2012-05-3114:00')+np.timedelta64(1,'ms')*np.cumsum(10**3*np.random.exponential(size=10**6))x=np.random.normal(size=10**6)y=np.random.normal(size=10**6)df=pandas.DataFrame({'x':

python Pandas section code size time-series

python - pandas.DataFrame 可以有列表类型的列吗？

是否可以创建包含列表类型字段的pandas.DataFrame？例如，我想将以下csv加载到pandas.DataFrame:id,scores1,"[1,2,3,4]"2,"[1,2]"3,"[0,2,4]" 最佳答案去除双引号:id,scores1,[1,2,3,4]2,[1,2]3,[0,2,4]你应该能够做到这一点:query=[[1,[1,2,3,4]],[2,[1,2]],[3,[0,2,4]]]df=pandas.DataFrame(query,columns=['id','scores'])printdf

DataFrame python section code pandas

python - 如果一个值是 NaN，Pandas 用 NaN 替换一行中的所有项目

我想删除一些带有NaN的记录。这非常有效:df.dropna(axis=0,how='any',inplace=True)但是，它改变了我的数据框的形状，索引不再均匀分布。因此，我想用np.nan替换这些行中的所有项目。有没有简单的方法可以做到这一点？我正在考虑在dropna之后对数据帧进行重新采样，但这似乎只适用于规定的时间间隔，而我宁愿使用原始索引。另一种方法是使用iterrows遍历数据帧，但这也感觉很麻烦。最佳答案下面的命令选择任何值等于Nan的所有行，并将NaN分配给其余这些行。df.loc[df.isnull().a

NaN python section code stackoverflow pandas

python - Pandas :将多列绘制为相同的 x 值

跟进previousquestion关于Pandas的数据分析。我现在想绘制我的数据，如下所示:PrESTIDGeneSequenceRatio1Ratio2Ratio3HPRR12ATF1TTPSAXXXXXXXXXTTTK6.32224.05584.958HPRR23CREB1KIXXXXXXXXPGVPRNaNNaNNaNHPRR23CREB1ILNXXXXXXXXGVPR0.226912.077NaNHPRR15ELK4IEGDCEXXXXXXXGGK1.177NaN12.073HPRR15ELK4SPXXXXXXXXXXXSVIK8.6614.755NaNHPRR15ELK4

多列 python 39 section HPRR matplotlib plot pandas

python - Pandas 根据多个条件过滤行

我在risk列中有一些值既不是Small、Medium也不是High。我想删除值不是Small、Medium和High的行。我尝试了以下方法:df=df[(df.risk=="Small")|(df.risk=="Medium")|(df.risk=="High")]但这会返回一个空的DataFrame。如何正确过滤它们？最佳答案我想你想要:df=df[(df.risk.isin(["Small","Medium","High"]))]例子:In[5]:importpandasaspddf=pd.DataFrame({'risk

python Pandas code section Medium dataframe

python - 在 pandas 的 groupby 中排名

我有一个典型的“面板数据”(在计量经济学术语中，不是pandas面板对象)。数据框有一个Date列和一个ID列，以及包含特定值的其他列。对于每个日期，我需要根据V1对ID进行横截面排名，分成10个组(十分位数)，并创建一个名为rank_col的新列(取值1到10)来确定排名。然后汇集所有rank1、rank2、...rank10跨时间获得一些统计数据，如平均值、标准差。这可以在SAS中通过以下代码轻松完成，它也说明了我的目的:procsortdata=df;byDate;procrankdata=dfout=df_rankedgroups=10;varV1;ranksrank_col;

排名 groupby 2013 code 01 python pandas group-by

64 65 666768 69 70