草庐IT

pandas-loc

全部标签

python pandas 按一天中的小时求和

我正在使用以下每小时计数(df)的数据集:datframe有8784行(2016年,每小时)。我想看看是否有每日趋势(例如,早上时间是否有所增加。为此,我想创建一个具有一天中的小时(从0到24)的图x轴和y轴上的骑车人数量(类似于下图中来自http://ofdataandscience.blogspot.co.uk/2013/03/capital-bikeshare-time-series-clustering.html的图片)。我尝试了pivot、resample和set_index的不同方法,并使用matplotlib绘制它,但没有成功。换句话说,我找不到一种方法来总结特定时间的每

Windows 上 Visual Studio 2017 中的 Python 包(numpy/pandas/等)

我刚刚安装了带有Python和数据科学工作负载的VisualStudioCommunity。我从Python\MachineLearning模板创建了一个新的回归项目。前几行是:frompandasimportread_tableimportnumpyasnpimportmatplotlib.pyplotasplt首先我得到错误:Nomodulenamedxxx或Missingrequireddependencies[xxx],forpandasornumpy,orscikitlearnorscipy.我原以为它们会作为VisualStudio工作负载的一部分安装,实际上它们似乎在An

python - 如何处理 pandas fillna 中的 `None` 值

我有以下字典:fillna(value={'first_name':'Andrii','last_name':'Furmanets','created_at':None})当我将该字典传递给fillna时,我看到:raiseValueError('mustspecifyafillmethodorvalue')\nValueError:mustspecifyafillmethodorvalue\n"在我看来,它在None值上失败了。我使用的是pandas版本0.20.3。 最佳答案 如果您想使用python的None规范化所有空值。d

python - 将 JSON 读取到 pandas 数据框 - ValueError : Mixing dicts with non-Series may lead to ambiguous ordering

我试图将下面的JSON结构读入pandas数据框,但它抛出了错误消息:ValueError:Mixingdictswithnon-Seriesmayleadtoambiguousordering.Json数据:{"status":{"statuscode":200,"statusmessage":"EverythingOK"},"result":[{"id":22,"club_id":16182},{"id":23,"club_id":16182},{"id":24,"club_id":16182},{"id":25,"club_id":16182},{"id":26,"club_id

python - 使用 python pandas 查找另一个数据框并返回相应的值

我有两个数据框;df1为;NameRoleJimAccountsSamPurchaseRheaSalesdf2为;NameDateJim1/1/2000Jim2/1/2000Jim3/1/2000Sam1/1/2000Sam2/1/2000Rhea1/1/2000Rhea2/1/2000我想查找df1并将输出为;NameDateRoleJim1/1/2000AccountsJim2/1/2000AccountsJim3/1/2000AccountsSam1/1/2000PurchaseSam2/1/2000PurchaseRhea1/1/2000SalesRhea2/1/2000Sal

python - 向 Pandas 数据框添加多索引并保持当前索引

我正在尝试合并来自不同参与者的时间过程数据。我迭代地为每个参与者提取一个数据框,并在循环结束时将它们连接起来。在连接之前,我想将参与者的ID添加到附加索引中。这看起来非常简单,但我找不到关于这个问题的任何信息:(我想转这个col0111.12NaN进入:colID0111.12NaN我知道我可以创建一个新索引,例如:multindex=[np.array(ID*len(data)),np.array(np.arange(len(data)))]但那是没有尽头的不雅,而且-看到我在半小时内以高频测量-甚至会变得有点慢:/我想提一下,我最近发现我的问题与thisotherquestion重

python - Pandas 根据 bool 数组就地修改列值

我知道如何根据另一列的值使用apply或np.where创建一个新列,但是有选择地更改现有列的值的方法专栏正在逃避我;我怀疑涉及df.ix?我接近了吗?例如,这是一个简单的数据框(我的有数万行)。如果名称以字母“e”结尾,我想更改“标志”列中的值(假设为“蓝色”):>>>importpandasaspd>>>df=pd.DataFrame({'name':['Mick','John','Christine','Stevie','Lindsey'],\'flag':['Purple','Red',nan,nan,nan]})[['name','flag']]>>>printdfnamef

python - 在 pandas 中保留 NaN 的同时删除重复项

当使用drop_duplicates()方法时,我减少了重复项,但也将所有NaN合并到一个条目中。如何在保留具有空条目(如np.nan、None或'')的行的同时删除重复项?importpandasaspddf=pd.DataFrame({'col':['one','two',np.nan,np.nan,np.nan,'two','two']})Out[]:col0one1two2NaN3NaN4NaN5two6twodf.drop_duplicates(['col'])Out[]:col0one1two2NaN 最佳答案 尝试df

python - 使用 pandas/matplotlib 或 seaborn 排序的条形图

我有一个包含5000个产品和50个特征的数据集。其中一列是“颜色”,该列中有100多种颜色。我正在尝试绘制条形图以仅显示前10种颜色以及每种颜色有多少产品。top_colors=df.colors.value_counts()top_colors[:10].plot(kind='barh')plt.xlabel('No.ofProducts');使用Seaborn:sns.factorplot("colors",data=df,palette="PuBu_d");1)有更好的方法吗?2)我如何用Seaborn复制它?3)我如何绘制最高计数在顶部(即条形图最顶部的黑色)

python - Pandas groupby : percentage above threshold

我有一个DataFrame,我希望在其上使用groupby,但我正在寻找一些不寻常的函数来进行聚合。我想让每个组中的观察百分比超过某个阈值。例如,阈值为0时,DataFramedf=pd.DataFrame(dict(day=[1,1,1,2,2,2,3,3,3,4],value=[0,4,0,4,0,4,0,4,0,4]))dfdayvalue010114210324420524630734830944应该变成df_group=pd.DataFrame(dict(day=[1,2,3,4],value=[.33,.67,.33,1.0]))df_groupdayvalue010.33