数据专家最常使用的 10 大类 Pandas 函数 ⛵

ShowMeAI 2023-03-28 原文

? 作者：韩信子@ShowMeAI
? 数据分析实战系列：http://www.showmeai.tech/tutorials/40
? 本文地址：http://www.showmeai.tech/article-detail/304
? 声明：版权所有，转载请联系平台与作者并注明出处
? 收藏ShowMeAI查看更多精彩内容

Python具有极其活跃的社区和覆盖全领域的第三方库工具库，近年来一直位居编程语言热度头部位置，而数据科学领域最受欢迎的python工具库之一是 Pandas。随着这么多年来的社区高速发展和海量的开源贡献者，使得 pandas 几乎可以胜任任何数据处理工作。

Pandas的功能与函数极其丰富，要完全记住和掌握是不现实的（也没有必要），资深数据分析师和数据科学家最常使用的大概有二三十个函数。在本篇内容中，ShowMeAI 把这些功能函数总结为10类。熟练掌握它们，你就可以轻松解决80% 以上的数据处理问题。

也推荐大家阅读ShowMeAI针对数据分析编写的教程和速查表，快速成为数据洞察高手！

图解数据分析：从入门到精通系列教程

数据科学工具库速查表 | Pandas 速查表

? 1.读取数据

我们经常要从外部源读取数据，基于不同的源数据格式，我们可以使用对应的 read_*功能：

read_csv：我们读取CSV格式数据时使用它。这个函数的使用注意点包括 header（是否有表头以及哪一行是表头）， sep（分隔符），和 usecols（要使用的列/字段的子集）。
read_excel：读取Excel格式文件时使用它。这个函数的使用注意点包括 sheet_name（哪个表）和标题。
read_pickle：读取pickle格式存储的文件时使用，这个格式的优势是比 CSV 和 Excel快很多。
read_sas: 我经常使用这个功能，因为我曾经使用 SAS 来处理数据。

? 2.写入数据

处理完数据后，我们可能会把处理后的DataFrame保存下来，最常用的文件写入函数如下：

to_csv: 写入 CSV 文件。注意：它不保留某些数据类型（例如日期）。很多情况下我们会将参数索引设置为False，这样就不用额外的列来显示数据文件中的索引。
to_excel: 写入 Excel 文件。
to_pickle：写入pickle文件。这是建议的写入格式，读写的速度都非常快。

? 3.数据概览

将数据成 DataFrame 格式后，我们最好对数据有一个初步的了解，以下是最常用到的几个数据概览函数，能提供数据的基本信息。

head：返回前几行，通常用于检查数据是否正确读取，以及了解数据字段和形态等基本信息。
tail：检查最后几行。在处理大文件时，读取可能不完整，可以通过它检查是否完整读取数据。
info：数据集的总体摘要：包括列的数据类型和内存使用情况等信息。
describe：提供数据集的描述性摘要（比如连续值的统计信息、类别型字段的频次信息等）。
shape: 行数和列数（注意，这是Dataframe的属性，而非函数）。

? 4.数据排序

我们经常需要对数据进行排序，Dataframe有一个重要的排序函数。

sort_values：通过指定列名对数据进行排序，可以调整升序或者降序规则。

? 5.处理重复

我们手上的数据集很可能存在重复记录，某些数据意外两次输入到数据源中，清洗数据时删除重复项很重要。以下函数很常用：

duplicated: 识别DataFrame中是否有重复，可以指定使用哪些列来标识重复项。
drop_duplicates：从 DataFrame 中删除重复项。一般建议大家先使用 duplicated检查重复项，确定业务上需要删除重复项，再使用这个函数。

? 6.处理缺失值

现实数据集中基本都会存在缺失值的情况，下面这些函数常被用作检查和处理缺失值。

isnull：检查您的 DataFrame 是否缺失。
dropna: 对数据做删除处理。注意它有很重要的参数how（如何确定观察是否被丢弃）和 thred（int类型，保留缺失值的数量）。
fillna: 用指定的方法填充缺失值，例如向前填充 ( ffill)。

? 7.数据处理

一个字段可能包含很多信息，我们可以使用以下函数对字段进行数据处理和信息抽取：

map：通常使用map对字段进行映射操作（基于一些操作函数），如 df[“sub_id”] = df[“temp_id”].map(lambda x: int(x[-4:])).
apply：通过多列的数据创建新的字段，在创建新列时经常需要指定 axis=1。

? 8.数据透视

Dataframe有 2 种常见数据：

『宽』格式，指的是每一行代表一条记录（样本），每一列是一个观测维度（特征）。
『长』格式，在这种格式中，一个主题有多行，每一行可以代表某个时间点的度量。

我们会在这两种格式之间转换。

melt：将宽表转换为长表。注意：重要参数id_vars（对于标识符）和 value_vars（其值对值列有贡献的列的列表）。
pivot：将长表转换为宽表。注意：重要参数index（唯一标识符）， columns（列成为值列），和 values（具有值的列）。

? 9.合并数据集

我们对多个数据集Dataframe合并的时候，可能用到下列的函数（包括表关联和拼接）。

merge：基于某些字段进行表关联。重要的参数包括 on（连接字段），how（例如内连接或左连接，或外连接），以及 suffixes（相同字段合并后的后缀）。
concat：沿行或列拼接DataFrame对象。当我们有多个相同形状/存储相同信息的 DataFrame 对象时，它很有用。

? 10.分组统计

我们经常会需要对数据集进行分组统计操作，常用的函数包括：

groupby：创建一个 GroupBy 分组对象，可以基于一列或多列进行分组。
mean：您可以在 GroupBy 分组对象上调用 mean 来计算均值。其他的常用统计信息包括标准差std。
size: 分组的频率
agg：聚合函数。包括常用的统计方法，也可以自己定义。

参考资料

? 图解数据分析：从入门到精通系列教程：http://www.showmeai.tech/tutorials/33
? 数据科学工具库速查表 | Pandas 速查表：http://www.showmeai.tech/article-detail/101

有关数据专家最常使用的 10 大类 Pandas 函数 ⛵的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po