Pandas-Datareader

python - pandas - 具有非数值的 pivot_table？ (数据错误 : No numeric types to aggregate)

我正在尝试对包含字符串作为结果的表进行数据透视。importpandasaspddf1=pd.DataFrame({'index':range(8),'variable1':["A","A","B","B","A","B","B","A"],'variable2':["a","b","a","b","a","b","a","b"],'variable3':["x","x","x","y","y","y","x","y"],'result':["on","off","off","on","on","off","off","on"]})df1.pivot_table(values='res

pivot_table aggregate 34 NaN variable python pandas pivot-table dataframe

python - 当我传递 skip_footer arg 时，Pandas read_csv 忽略列数据类型

当我尝试将csv文件导入数据框时，pandas(0.13.1)忽略了dtype参数。有没有办法阻止pandas自行推断数据类型？我正在合并几个CSV文件，有时客户包含字母和pandas导入作为字符串。当我尝试合并这两个数据帧时出现错误，因为我正在尝试合并两种不同的类型。我需要将所有内容存储为字符串。数据片段:|WAREHOUSE|ERROR|CUSTOMER|ORDERNO||---------|-----|--------|--------||3615||03106|253734||3615||03156|290550||3615||03175|262207||3615||03175

skip_footer read_csv code 262207 03175 python python-2.7 csv pandas

python - Pandas 数据框中的字典列

我有一个csv，我正在读入pandas数据框。但是其中一列是字典的形式。这是一个例子:ColA,ColB,ColC,ColdD20,30,{"ab":"1","we":"2","as":"3"},"String"我怎样才能把它变成一个看起来像这样的数据框:ColA,ColB,AB,WE,AS,ColdD20,30,"1","2","3","String"编辑我修正了这个问题，它看起来像这样但是是一个需要解析的字符串，而不是字典对象。最佳答案根据https://stackoverflow.com/a/38231651/454773

python Pandas 34 section code dictionary

python - 如何将 Pandas 中的变量指定为序数/分类？

我正在尝试使用scikit-learn在数据集上运行一些机器学习算法。我的数据集有一些类似于类别的特征。就像一个特征是A，它的值1,2,3指定某物的质量。1:上等，2:二等，3:三等。所以它是一个有序变量。类似地，我重新编码了一个变量City，具有三个值('London',Zurich','NewYork'到1,2,3但对值没有特定偏好。所以现在这是一个名义分类变量。如何指定算法以将它们视为pandas中的分类和顺序等？。与在R中一样，分类变量由factor(a)指定，因此不被视为连续值。pandas/python中有类似的东西吗？最佳答案

定为 python code pandas 39 scikit-learn categorical-data

python - 从 Pandas 系列中删除零行

我有一个数字Pandas系列，其中601行按日期索引，如下所示。值在某个点之前为零，之后所有值都不为零。这一点因每个系列而异，但我想要一种方法来删除所有值为零的行，同时保持日期索引的完整性。Name:users,dtype:float64dates2015-08-1714:29:59-04:00182015-08-1614:29:59-04:0032015-08-1514:29:59-04:00112015-08-1414:29:59-04:00122015-08-1314:29:59-04:0082015-08-1214:29:59-04:00102015-08-1114:29:59

python Pandas 2015 29 59 series

python - 绘制 Pandas 数据框两列

我有一个pandas数据框，其中有日期作为索引和一些列:我想绘制一个包含2条线的折线图(假设为“ISP.MI”和“Ctrv”)；在x轴上我需要“日期”TickerISP.MIDailyreturnsCtrvInv_AmGiac_MediaDate2016-01-012.90117NaN100.000000100100.02016-01-042.80159-0.034927196.507301200150.02016-01-052.856080.019263300.292610300200.02016-01-062.77904-0.027345392.081255400250.02016

python Pandas section 2016 code matplotlib

python - 修改 Python Pandas 的输出描述

有没有办法省略pandasdescribe的一些输出？此命令通过表输出(通过simpleDate计算executeTime的计数和平均值)准确地给出了我想要的内容df.groupby('simpleDate').executeTime.describe().unstack(1)但这就是我想要的，算数和意思。我想删除std、min、max等...到目前为止，我只阅读了如何修改列大小。我猜答案是重写该行，而不是使用describe，但我还没有通过simpleDate和获得计数的任何运气执行时间。我可以按日期计数:df.groupby(['simpleDate']).size()或按日期执行

python code section simpleDate pandas

python - 将 Pandas 时间戳四舍五入到分钟

我想使用pd_date_range()根据开始和结束时间戳(从纪元开始以微秒为单位)每隔1分钟创建一个DateTimeIndex。为此，我需要向上舍入开始时间戳并向下舍入结束时间戳。这是我目前所拥有的:importpandasaspdstart=1406507532491431end=1406535228420914start_ts=pd.to_datetime(start,unit='us')#Timestamp('2014-07-2800:32:12.491431')end_ts=pd.to_datetime(end,unit='us')#Timestamp('2014-07-28

四舍 python code section Timestamp pandas

python - 将 pandas DataFrame query() 方法与 isin() 结合起来

所以我想将isin()方法与df.query()一起使用，以选择列表中具有id的行:id_list。类似question之前被问过，但他们使用了典型的df[df['id'].isin(id_list)]方法。我想知道是否有办法改用df.query()。df=pd.DataFrame({'a':list('aabbccddeeff'),'b':list('aaaabbbbcccc'),'c':np.random.randint(5,size=12),'d':np.random.randint(9,size=12)})id_list=["a","b","c"]这会产生一个错误df.quer

DataFrame python code section 39 pandas

python - 附加到 python/pandas 中的系列不起作用

我正在尝试将值附加到通过查找第n个和第nth+1个元素之间的差异获得的pandas系列:q=pd.Series([])whilei我得到的输出是:Series([],dtype:float64)为什么我没有得到一个包含所有附加值的数组？--附言这是一个数据科学问题，我必须通过搜索数据框来找到县最多的州。我使用一个州结束和下一个州开始的索引值(我用来查找差异的数组中的值)来确定该州有多少个县。如果有人知道如何比我上面更好地解决这个问题，请告诉我! 最佳答案 append方法不能就地工作。相反，它返回一个新的Series对象。所以应该是

python pandas section code Series dataframe

96 97 9899100 101 102