python - Pandas - 如何对多个变量进行分组和拆分？

coder 2023-08-23 原文

我目前有一些结构如下的数据集:

data = {'participant': [100, 101, 102, 103, 104, 105, 106, 107, 108, 109],
        'step_name': ['first', 'first', 'second', 'third', 'second', 'first', 'first', 'first', 'second', 'third'],
        'title': ['acceptable', 'acceptable', 'not acceptable', 'acceptable', 'not acceptable', 'acceptable', 'not acceptable', 'acceptable', 'acceptable', 'acceptable'],
        'colour': ['blue', 'blue', 'blue', 'green', 'green', 'blue', 'green', 'blue', 'blue', 'green'],
        'class': ['A', 'B', 'B', 'A', 'B', 'A', 'A', 'A', 'A', 'B']}
df = pd.DataFrame(data, columns=['participant', 'step_name', 'title', 'colour', 'class'])

看起来像:

+----+---------------+-------------+----------------+----------+---------+
|    |   participant | step_name   | title          | colour   | class   |
|----+---------------+-------------+----------------+----------+---------|
|  0 |           100 | first       | acceptable     | blue     | A       |
|  1 |           101 | first       | acceptable     | blue     | B       |
|  2 |           102 | second      | not acceptable | blue     | B       |
|  3 |           103 | third       | acceptable     | green    | A       |
|  4 |           104 | second      | not acceptable | green    | B       |
|  5 |           105 | first       | acceptable     | blue     | A       |
|  6 |           106 | first       | not acceptable | green    | A       |
|  7 |           107 | first       | acceptable     | blue     | A       |
|  8 |           108 | second      | acceptable     | blue     | A       |
|  9 |           109 | third       | acceptable     | green    | B       |
+----+---------------+-------------+----------------+----------+---------+

现在我想聚合数据集，以便每一行都对每个重复变量进行计数，我目前已经设法通过两个变量(step_name 和 title )如下:

count_df = df[['participant', 'step_name', 'title']].groupby(['step_name', 'title']).count()
count_df = count_df.unstack()
count_df.fillna(0, inplace=True)
count_df.columns = count_df.columns.get_level_values(1)
count_df

+--------+--------------+------------------+
|        |   acceptable |   not acceptable |
|--------+--------------+------------------|
| first  |            4 |                1 |
| second |            1 |                2 |
| third  |            2 |                0 |
+--------+--------------+------------------+

不过现在，我想要一组额外的列，其中包括其他变量(colour 和 class)的值——基本上，我想要对这些变量进行分组然后取消堆叠，但我不确定如何处理超过 2 个变量。最后，我希望我的决赛 table 看起来像这样:

+------+------+--------+--------------+------------------+
|class |colour| step   |   acceptable |   not acceptable |
|----------------------+--------------+------------------|
| A    | blue | first  |            3 |                0 |
| B    | blue | first  |            1 |                0 |
| A    |green | first  |            0 |                1 |
| B    |green | first  |            0 |                0 |
| A    | blue | second |            1 |                0 |
| B    | blue | second |            0 |                1 |
| A    |green | second |            0 |                0 |
| B    |green | second |            0 |                1 |
| A    |blue  | third  |            0 |                0 |
| B    |blue  | third  |            0 |                0 |
| A    |green | third  |            1 |                0 |
| B    |green | third  |            1 |                0 |
+------+------+--------+--------------+------------------+

如何 reshape 我的数据，使其看起来像我的最终示例？我是否仍然使用 unstack 和 group 功能？

最佳答案

我想你需要pivot_table使用 aggfunc=len，reset_index和 rename_axis (pandas 0.18.0 中的新功能):

df = df.pivot_table(index=['class','colour','step_name'], 
                    columns='title', 
                    aggfunc=len, 
                    values='participant', 
                    fill_value=0).reset_index().rename_axis(None, axis=1)
print df
      class colour step_name  acceptable  not acceptable
0         A   blue     first           3               0
1         A   blue    second           1               0
2         A  green     first           0               1
3         A  green     third           1               0
4         B   blue     first           1               0
5         B   blue    second           0               1
6         B  green    second           0               1
7         B  green     third           1               0

关于python - Pandas - 如何对多个变量进行分组和拆分？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37121515/

python Pandas 39 acceptable code dataframe

有关python - Pandas - 如何对多个变量进行分组和拆分？的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2
在控制台中反复尝试之后，我想到了这种方法，可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法，但它确实有效。有没有人有更好的建议，或者这是一个很好的方法？#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2
我有多个ActiveRecord子类Item的实例数组，我需要根据最早的事件循环打印。在这种情况下，我需要打印付款和维护日期，如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询，用于查找maintenance和payment项目(非排他性查询)，并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

python - Pandas - 如何对多个变量进行分组和拆分？

有关python - Pandas - 如何对多个变量进行分组和拆分？的更多相关文章

随机推荐