草庐IT

Pandas-Datareader

全部标签

python - pandas - 具有非数值的 pivot_table? (数据错误 : No numeric types to aggregate)

我正在尝试对包含字符串作为结果的表进行数据透视。importpandasaspddf1=pd.DataFrame({'index':range(8),'variable1':["A","A","B","B","A","B","B","A"],'variable2':["a","b","a","b","a","b","a","b"],'variable3':["x","x","x","y","y","y","x","y"],'result':["on","off","off","on","on","off","off","on"]})df1.pivot_table(values='res

python - 当我传递 skip_footer arg 时,Pandas read_csv 忽略列数据类型

当我尝试将csv文件导入数据框时,pandas(0.13.1)忽略了dtype参数。有没有办法阻止pandas自行推断数据类型?我正在合并几个CSV文件,有时客户包含字母和pandas导入作为字符串。当我尝试合并这两个数据帧时出现错误,因为我正在尝试合并两种不同的类型。我需要将所有内容存储为字符串。数据片段:|WAREHOUSE|ERROR|CUSTOMER|ORDERNO||---------|-----|--------|--------||3615||03106|253734||3615||03156|290550||3615||03175|262207||3615||03175

python - Pandas 数据框中的字典列

我有一个csv,我正在读入pandas数据框。但是其中一列是字典的形式。这是一个例子:ColA,ColB,ColC,ColdD20,30,{"ab":"1","we":"2","as":"3"},"String"我怎样才能把它变成一个看起来像这样的数据框:ColA,ColB,AB,WE,AS,ColdD20,30,"1","2","3","String"编辑我修正了这个问题,它看起来像这样但是是一个需要解析的字符串,而不是字典对象。 最佳答案 根据https://stackoverflow.com/a/38231651/454773

python - 如何将 Pandas 中的变量指定为序数/分类?

我正在尝试使用scikit-learn在数据集上运行一些机器学习算法。我的数据集有一些类似于类别的特征。就像一个特征是A,它的值1,2,3指定某物的质量。1:上等,2:二等,3:三等。所以它是一个有序变量。类似地,我重新编码了一个变量City,具有三个值('London',Zurich','NewYork'到1,2,3但对值没有特定偏好。所以现在这是一个名义分类变量。如何指定算法以将它们视为pandas中的分类和顺序等?。与在R中一样,分类变量由factor(a)指定,因此不被视为连续值。pandas/python中有类似的东西吗? 最佳答案

python - 从 Pandas 系列中删除零行

我有一个数字Pandas系列,其中601行按日期索引,如下所示。值在某个点之前为零,之后所有值都不为零。这一点因每个系列而异,但我想要一种方法来删除所有值为零的行,同时保持日期索引的完整性。Name:users,dtype:float64dates2015-08-1714:29:59-04:00182015-08-1614:29:59-04:0032015-08-1514:29:59-04:00112015-08-1414:29:59-04:00122015-08-1314:29:59-04:0082015-08-1214:29:59-04:00102015-08-1114:29:59

python - 绘制 Pandas 数据框两列

我有一个pandas数据框,其中有日期作为索引和一些列:我想绘制一个包含2条线的折线图(假设为“ISP.MI”和“Ctrv”);在x轴上我需要“日期”TickerISP.MIDailyreturnsCtrvInv_AmGiac_MediaDate2016-01-012.90117NaN100.000000100100.02016-01-042.80159-0.034927196.507301200150.02016-01-052.856080.019263300.292610300200.02016-01-062.77904-0.027345392.081255400250.02016

python - 修改 Python Pandas 的输出描述

有没有办法省略pandasdescribe的一些输出?此命令通过表输出(通过simpleDate计算executeTime的计数和平均值)准确地给出了我想要的内容df.groupby('simpleDate').executeTime.describe().unstack(1)但这就是我想要的,算数和意思。我想删除std、min、max等...到目前为止,我只阅读了如何修改列大小。我猜答案是重写该行,而不是使用describe,但我还没有通过simpleDate和获得计数的任何运气执行时间。我可以按日期计数:df.groupby(['simpleDate']).size()或按日期执行

python - 将 Pandas 时间戳四舍五入到分钟

我想使用pd_date_range()根据开始和结束时间戳(从纪元开始以微秒为单位)每隔1分钟创建一个DateTimeIndex。为此,我需要向上舍入开始时间戳并向下舍入结束时间戳。这是我目前所拥有的:importpandasaspdstart=1406507532491431end=1406535228420914start_ts=pd.to_datetime(start,unit='us')#Timestamp('2014-07-2800:32:12.491431')end_ts=pd.to_datetime(end,unit='us')#Timestamp('2014-07-28

python - 将 pandas DataFrame query() 方法与 isin() 结合起来

所以我想将isin()方法与df.query()一起使用,以选择列表中具有id的行:id_list。类似question之前被问过,但他们使用了典型的df[df['id'].isin(id_list)]方法。我想知道是否有办法改用df.query()。df=pd.DataFrame({'a':list('aabbccddeeff'),'b':list('aaaabbbbcccc'),'c':np.random.randint(5,size=12),'d':np.random.randint(9,size=12)})id_list=["a","b","c"]这会产生一个错误df.quer

python - 附加到 python/pandas 中的系列不起作用

我正在尝试将值附加到通过查找第n个和第nth+1个元素之间的差异获得的pandas系列:q=pd.Series([])whilei我得到的输出是:Series([],dtype:float64)为什么我没有得到一个包含所有附加值的数组?--附言这是一个数据科学问题,我必须通过搜索数据框来找到县最多的州。我使用一个州结束和下一个州开始的索引值(我用来查找差异的数组中的值)来确定该州有多少个县。如果有人知道如何比我上面更好地解决这个问题,请告诉我! 最佳答案 append方法不能就地工作。相反,它返回一个新的Series对象。所以应该是