草庐IT

dataframe

全部标签

python - 用 Bokeh 绘制整个 pandas DataFrame

我想用Bokeh绘制整个pandasDataFrame。即,我正在寻找相当于第三行的Bokeh:importpandasaspdincome_df=pd.read_csv("income_2013_dollars.csv",sep='\t',thousands=',')income_df.plot(x="year")目前有办法做到这一点,还是我必须分别传递每个y值? 最佳答案 来自Bokeh项目维护者的注释:这个答案指的是一个过时且已弃用的API,该API早已从Bokeh中删除。有关使用现代且完全受支持的BokehAPI创建条形图的

python - Pandas:如何在 DataFrame 中按行比较列表的列与 Pandas(不是 for 循环)?

数据框df=pd.DataFrame({'A':[['gener'],['gener'],['system'],['system'],['gutter'],['gutter'],['gutter'],['gutter'],['gutter'],['gutter'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum'],['aluminum','toledo']],'B':[['gutter'],['gutte

python - 获取 DataFrame 列作为值列表

我正在尝试获取pandasDataFrame的列作为值列表。我可以使用iloc访问第一列:df.ix[:,[0]].values但是,这会返回一个列表数组:>>>df3.ix[:,[1]].valuesarray([[0.],[0.],[0.],如何返回数字列表?我可以通过按名称调用列并使用tolist()来获得我想要的内容:>>>df3['D-328'].tolist()[0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,15.0,但是,当按索引调用列时,该方法不可用:>>>df3.ix[:,[0]].tolist()Traceback(mostrece

python - Pandas groupby 和 rolling_apply 忽略 NaN

我有一个pandas数据框,我想计算列的滚动平均值(在groupby子句之后)。但是,我想排除NaN。例如,如果groupby返回[2,NaN,1],则结果应为1.5,而当前它返回NaN。我尝试了以下方法,但似乎不起作用:df.groupby(by=['var1'])['value'].apply(pd.rolling_apply,3,lambdax:np.mean([iforiinxifiisnotnp.nanandi!='NaN']))如果我什至尝试这样做:df.groupby(by=['var1'])['value'].apply(pd.rolling_apply,3,lambd

python - 将 pandas 数据框从行 reshape 为列

我正在尝试reshape我的数据。乍一看,这听起来像是转置,但实际上不是。我尝试了熔化、堆叠/取消堆叠、连接等。用例我希望每个独特的个人只有一行,并将所有工作历史记录在列中。对于客户而言,跨行阅读信息比逐列阅读更容易。这是数据:importpandasaspdimportnumpyasnpdata1={'Name':["Joe","Joe","Joe","Jane","Jane"],'Job':["Analyst","Manager","Director","Analyst","Manager"],'JobEffDate':["1/1/2015","1/1/2016","7/1/201

python - 将函数应用于 pandas Python 中的每一行时出现数据转换错误

我在python中的pandas中有一个数据框,类似于这样的东西-contest_login_countcontest_participation_countipn_ratio0110.0000001330.0833332330.0000003330.06666745130.1028045230.4074076130.0000007120.000000853910.2641519120.000000现在我想对这个数据帧的每一行应用一个函数函数是这样写的-deffindCluster(clusterModel,data):returnclusterModel.predict(data)我

python - 如何使用字典对 DataFrame 进行子集化?

比如说,我给出了一个DataFrame,其中大部分列都是分类数据。>data.head()agerisksexsmoking028nomaleno158nofemaleno227nomaleyes326nomaleno429yesfemaleyes我想通过这些分类变量的键值对字典对这些数据进行子集化。tmp={'risk':'no','smoking':'yes','sex':'female'}因此,我想要以下子集。data[(data.risk=='no')&(data.smoking=='yes')&(data.sex=='female')]我想做的是:data[tmp]执行此操作

python - 完全相同的文本字符串不匹配

我在数据框title和store中有两列,其中包含我想对数据框进行子集化的文本字符串:In[84]:2631coffee‑matesugarfreefrench...jet.com2633nestlecoffeematenaturalbliss...jet.com2634coffee‑mateliquidcoffeecreamer,...jet.com3085coffee‑matehazelnut...jet.com当我尝试时:df[(df.title.str.contains('coffee-mate'))&(df.store.str.contains('jet.com'))]我得到

python - 向 Pandas 数据框添加多索引并保持当前索引

我正在尝试合并来自不同参与者的时间过程数据。我迭代地为每个参与者提取一个数据框,并在循环结束时将它们连接起来。在连接之前,我想将参与者的ID添加到附加索引中。这看起来非常简单,但我找不到关于这个问题的任何信息:(我想转这个col0111.12NaN进入:colID0111.12NaN我知道我可以创建一个新索引,例如:multindex=[np.array(ID*len(data)),np.array(np.arange(len(data)))]但那是没有尽头的不雅,而且-看到我在半小时内以高频测量-甚至会变得有点慢:/我想提一下,我最近发现我的问题与thisotherquestion重

python - 将包含值列表的字典转换为数据框

我花了一段时间查看SO,似乎我遇到了一个独特的问题。我有一个字典,如下所示:dict={123:[2,4],234:[6,8],...}我想将这个包含值列表的字典转换为如下所示的3列数据框:time,value1,value2123,2,4234,6,8...我可以跑:pandas.DataFrame(dict)但这会生成以下内容:123,234,...2,6,...4,8,...可能是一个简单的修复,但我仍在挑选Pandas 最佳答案 您可以按照levi的建议对数据进行预处理,也可以在创建数据框后对其进行转置。testdict={