草庐IT

panda_link

全部标签

python - 在 Pandas Dataframe 中删除具有低标准偏差的列

有没有办法不用写for循环就可以做到这一点?假设我们有以下数据:d={'A':{-1:0.19052041339798062,0:-0.0052531481871952871,1:-0.0022017467720961644,2:-0.051109629013311737,3:0.18569441222621336},'B':{-1:0.029181417300734112,0:-0.0031021862533310743,1:-0.014358516787430284,2:0.0046386615308068877,3:0.056676322314857898},'C':{-1:0.

python - Pandas 在 `datetime` 或 `datetime` 合并到 `datetimeIndex`

目前我有两个代表excel电子表格的数据框。我希望加入日期相等的数据。这是一对多连接,因为一个电子表格有一个日期,然后我需要添加具有相同日期的多行数据一个例子:ABdatedatadatedata02015-0-1...02015-0-1to2015-0-2...12015-0-2...12015-0-1to2015-0-2...在这种情况下,A的两行都将收到B的第0行和第1行,因为它们都在该范围内。我试过用df3=pandas.merge(df2,df1,how='right',validate='1:m',left_on='TravelDate/Range',right_on='E

Python之Pandas使用详解

Pandas在数据分析当中,我们通常使用Pandas来做数据清理的工作。在真实的工作生活中,我们拿到的数据往往都是不整洁的,空值、重复值、无效值等等信息都会干扰我们的分析,此时我们就需要按部就班的完成数据的清理。数据清理是数据分析中非常重要的一步,也是非常繁琐的一步,当然,在你掌握了Pandas库之后,你就好像是得到了一把削铁如泥的宝剑,数据清理工作的效率会大大提高。数据结构Pandas主要有两种数据结构,分别是Series和DataFrame,他们分别表示一维的序列和二维的表结构。维数名称描述1Series可以看做有标签(默认是整数序列RangeIndex;可以重复)的一维数组(同类型)。是

python - Pandas 填补时间序列中缺失的日期

我有一个数据框,其中汇总了几天的数据。我想补上缺失的日子我正在关注另一个帖子,Addmissingdatestopandasdataframe,不幸的是,它覆盖了我的结果(也许功能略有改变?)...代码如下importrandomimportdatetimeasdtimportnumpyasnpimportpandasaspddefgenerate_row(year,month,day):whileTrue:date=dt.datetime(year=year,month=month,day=day)data=np.random.random(size=4)yield[date]+li

python - 复制训练示例以处理 pandas 数据框中的类不平衡

我在pandas中有一个包含训练示例的DataFrame,例如:feature1feature2class00.5488140.791725110.7151890.528895020.6027630.568045030.5448830.925597040.4236550.071036050.6458940.087129060.4375870.020218070.8917730.832620180.9636630.778157090.3834420.8700120我使用生成的:importpandasaspdimportnumpyasnpnp.random.seed(0)number_o

python - Pandas ,对于一列中的每个唯一值,在另一列中获取唯一值

我有一个数据框,其中每一行都包含与单个Reddit评论(例如作者、subreddit、评论文本)相关的各种元数据。我想做以下事情:对于每个作者,我想获取他们在其中发表评论的所有subreddits的列表,并将此数据转换为pandas数据框,其中每一行对应一个作者,以及所有的列表他们发表评论的独特子版block。我目前正在尝试以下的一些组合,但无法理解:尝试1:group=df['subreddit'].groupby(df['author']).unique()list(group)尝试2:fromcollectionsimportdefaultdictsubreddit_dict=d

python - Pandas :如何获得 Pandas 系列中最频繁的项目?

如何获取pandas系列中出现次数最多的项目?考虑系列ss=pd.Series("153335218102333".split()).astype(int)返回值应该是3 最佳答案 你可以只使用pd.Series.mode并提取第一个值:res=s.mode().iloc[0]这不一定是低效的。与往常一样,使用您的数据进行测试,看看什么适合。importnumpyasnp,pandasaspdfromscipy.stats.mstatsimportmodefromcollectionsimportCounternp.random.s

python - 用两列的 groupby 的第一行构建新列 - Pandas

我正在尝试构建一个新列,如果它是列“type”的元素第一次具有列“xx”的特定值,则该列的值为1,并在中给出0的值任何其他情况。我正在使用的原始数据框(df)是:idx=[np.array(['Jan-18','Jan-18','Feb-18','Mar-18','Mar-18','Mar-18','Apr-18','Apr-18','May-18','Jun-18','Jun-18','Jun-18','Jul-18','Aug-18','Aug-18','Sep-18','Sep-18','Oct-18','Oct-18','Oct-18','Nov-18','Dec-18','D

python - 与 Pandas 总结几个月

我知道有一个简单的实现可以做到这一点,但我不记得语法了。有一个简单的pandas时间序列,我想按月汇总数据。具体来说,我想添加数月和数年的数据以获得一些总结。可以用切片来编写它,但我记得看到过自动执行它的语法。importpandasaspddf=Series(randn(100),index=pd.date_range('2012-01-01',periods=100))以年为单位并以月份为子单位的多索引系列将获得一等奖。部分答案:ds.resample('M',how=sum)#forcalendarmonthlyds.resample('A',how=sum)#forcalend

python - 如何将 Pandas 组保存到单独的文件

我使用以下语句创建了个人数据组:df=pd.read_csv(file_path)grouped=df.groupby(df.some_parameter)然后我想做什么(在伪代码中是):forname,groupingrouped:'SomeText'+name=groupwritetocsv最终结果是原始数据集的每个block都有一个单独的.csv文件。 最佳答案 你快到了forname,groupingrouped:group.to_csv(path_to_disk) 关于pyth