吐血整理python数据分析利器pandas的八个生命周期！

Python 集中营 2023-04-17 原文

这里从八个pandas的数据处理生命周期，整理汇总出pandas框架在整个数据处理过程中都是如何处理数据的。

也就是从pandas的数据表对象以及数据汇总、数据统计等等直到数据导出的八个处理过程来完成pandas使用的汇总处理。

首先，需要准备好将python非标准库导入进来，除了pandas之外一般伴随数据分析处理使用的还有numpy科学计算库。

# Importing the pandas library and giving it the alias pd.
import pandas as pd

# Importing the numpy library and giving it the alias np.
import numpy as np

1、数据表对象（DataFrame）

在pandas的数据分析处理中，主要依赖的是对DataFrame对象的处理来完成数据的提取、汇总、统计等操作。

那么在初始化DataFrame对象的时候有两种方式，一种是直接读取Excel、csv文件获取数据后返回DataFrame数据对象。

# Reading the csv file and converting it into a dataframe.
dataframe_csv = pd.DataFrame(pd.read_csv('./data.csv'))

# Reading the excel file and converting it into a dataframe.
dataframe_xlsx = pd.DataFrame(pd.read_excel('./data.xlsx'))

另一种则是需要自己创建DataFrame对象的数据，将字典等类型的python对象直接初始化为DataFrame数据表的形式。

# Creating a dataframe with two columns, one called `name` and the other called `age`.
dataframe = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                          "已诞生多少年": [23, 20, 28]},
                         columns=['编程语言', '已诞生多少年'])

2、数据表（DataFrame）结构信息

通过DataFrame对象内置的各种函数来查看数据维度、列名称、数据格式等信息。

# Creating a dataframe with two columns, one called `name` and the other called `age`.
dataframe = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                          "已诞生多少年": [23, 20, 28]},
                         columns=['编程语言', '已诞生多少年'])

【加粗】dataframe.info()

查看数据表的基本信息展示，包括列数、数据格式、列名称、占用空间等。

dataframe.info()

# <class 'pandas.core.frame.DataFrame'>
# Index: 0 entries
# Data columns (total 2 columns):
#  #   Column  Non-Null Count  Dtype
# ---  ------  --------------  -----
#  0   编程语言    0 non-null      object
#  1   已诞生多少年  0 non-null      object
# dtypes: object(2)
# memory usage: 0.0+ bytes

【加粗】dataframe.columns

查看DataFrame对象的所有列的名称，并返回数组信息。

print('显示所有列的名称是：{0}'.format(dataframe.columns))

# 显示所有列的名称是：Index(['编程语言', '已诞生多少年'], dtype='object')

【加粗】dataframe['列名'].dtype

查看DataFrame对象中某一列的格式dtype是什么。

print('列名（编程语言）的格式是：{0}'.format(dataframe[u'编程语言'].dtype))

# 列名（编程语言）的格式是：object

【加粗】dataframe.shape

通过DataFrame对象的shape函数，进而展示出数据是几行几列的结构。

print('dataframe的结构是：{0}'.format(dataframe.shape))

# dataframe的结构是：(3, 2)

【加粗】dataframe.values

使用DataFrame对象的values函数，得出所有数据内容的结果。

# Importing the pprint function from the pprint module.
from pprint import pprint

pprint('dataframe对象的值是：{0}'.format(dataframe.values))

# "dataframe对象的值是：[['Java' 23]\n ['Python' 20]\n ['C++' 28]]"

3、数据清洗

数据清洗即是对DataFrame对象中的数据进行规范化的处理，比如空值的数据填充、重复数据的清理、数据格式的统一转换等等。

【加粗】dataframe.fillna()

# 将所有数据为空的项填充为0
dataframe.fillna(value=0)

# 使用均值进行填充
dataframe[u'已诞生多少年'].fillna(dataframe[u'已诞生多少年'].mean())

【加粗】map(str.strip)

# 去除指定列的首尾多余的空格后，再重新赋值给所在列

dataframe[u'编程语言'] = dataframe[u'编程语言'].map(str.strip)

【加粗】dataframe.astype

# 更改DataFrame数据对象中某个列的数据格式。

dataframe[u'已诞生多少年'].astype('int')

【加粗】dataframe.rename

# 更改DataFrame数据对象中某个列的名称

dataframe.rename(columns={u'已诞生多少年': u'语言年龄'})

【加粗】 dataframe.drop_duplicates

# 以DataFrame中的某个列为准，删除其中的重复项

dataframe[u'编程语言'].drop_duplicates()

【加粗】dataframe.replace

# 替换DataFrame数据对象中某个列中指定的值

dataframe[u'编程语言'].replace('Java', 'C#')

4、数据预梳理

数据预处理（data preprocessing）是指在主要的处理以前对数据进行的一些处理。

如对大部分地球物理面积性观测数据在进行转换或增强处理之前，首先将不规则分布的测网经过插值转换为规则网的处理，以利于计算机的运算。

【加粗】数据合并

使用DataFrame对象数据合并的有四种方式可以选择，分别是merge、append、join、concat方式，不同方式实现的效果是不同的。

接下来使用两种比较常见的方式append、concat、join来演示一下DataFrame对象合并的效果。

使用两个DataFrame的数据对象通过append将对象的数据内容进行合并。

# Creating a dataframe with two columns, one called `编程语言` and the other called `已诞生多少年`.
dataframeA = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                           "已诞生多少年": [23, 20, 28]}, columns=['编程语言', '已诞生多少年'])

# Creating a dataframe with two columns, one called `编程语言` and the other called `已诞生多少年`.
dataframeB = pd.DataFrame({"编程语言": ['Scala', 'C#', 'Go'],
                           "已诞生多少年": [23, 20, 28]}, columns=['编程语言', '已诞生多少年'])

# Appending the dataframeB to the dataframeA.
res = dataframeA.append(dataframeB)

# Printing the result of the append operation.
print(res)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20
# 2     C++      28
# 0   Scala      23
# 1      C#      20
# 2      Go      28
#
# Process finished with exit code 0

使用两个DataFrame的数据对象通过concat将对象的数据内容进行合并。

# Concatenating the two dataframes together.
res = pd.concat([dataframeA, dataframeB])

# Printing the result of the append operation.
print(res)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20
# 2     C++      28
# 0   Scala      23
# 1      C#      20
# 2      Go      28

concat函数的合并效果和append函数有异曲同工之妙，两者同样都是对数据内容进行纵向合并的。

使用两个DataFrame的数据对象通过join将对象的数据结构及数据内容进行横向合并。

# Creating a dataframe with two columns, one called `编程语言` and the other called `已诞生多少年`.
dataframeC = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                           "已诞生多少年": [23, 20, 28]}, columns=['编程语言', '已诞生多少年'])

# Creating a dataframe with one column called `历史表现` and three rows.
dataframeD = pd.DataFrame({"历史表现": ['A', 'A', 'A']})

# Joining the two dataframes together.
res = dataframeC.join(dataframeD, on=None)

# Printing the result of the append operation.
print(res)

#      编程语言  已诞生多少年 历史表现
# 0    Java      23    A
# 1  Python      20    A
# 2     C++      28    A

可以发现使用join的函数之后，将dataframeD作为一个列扩展了并且对应的每一行都准确的填充了数据A。

【加粗】设置索引

给DataFrame对象设置索引的话就比较方便了，直接DataFrame对象提供的set_index函数设置需要定义索引的列名称就OK了。

# Creating a dataframe with two columns, one called `编程语言` and the other called `已诞生多少年`.
dataframeE = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                           "已诞生多少年": [23, 20, 28]}, columns=['编程语言', '已诞生多少年'])

# Setting the index of the dataframe to the column `编程语言`.
dataframeE.set_index(u'编程语言')

# Printing the dataframeE.
print(dataframeE)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20
# 2     C++      28

【加粗】数据排序

DataFrame数据对象的排序主要是通过索引排序、某个指定列排序的方式为参照完成对DataFrame对象中的整个数据内容排序。

# Sorting the dataframeE by the index.
res = dataframeE.sort_index()

# Printing the res.
print(res)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20
# 2     C++      28

# Sorting the dataframeE by the column `已诞生多少年`.
res = dataframeE.sort_values(by=['已诞生多少年'], ascending=False)

# Printing the res.
print(res)

#      编程语言  已诞生多少年
# 2     C++      28
# 0    Java      23
# 1  Python      20

sort_index函数是指按照当前DataFrame数据对象的索引进行排序，sort_values则是按照指定的一个或多个列的值进行降序或者升序。

【加粗】数据分组

数据预处理中的数据分组主要是需要的分组的数据打上特殊的标记以便于后期对数据的归类处理。

比较简单一些的分组处理可以使用numpy中提供的函数进行处理，这里使用numpy的where函数来设置过滤条件。

# Creating a new column called `分组标记（高龄/低龄）` and setting the value to `高` if the value in the column `已诞生多少年` is greater
# than or equal to 23, otherwise it is setting the value to `低`.
dataframeE['分组标记（高龄/低龄）'] = np.where(dataframeE[u'已诞生多少年'] >= 23, '高', '低')

# Printing the dataframeE.
print(dataframeE)

#      编程语言  已诞生多少年 分组标记（高龄/低龄）
# 0    Java      23           高
# 1  Python      20           低
# 2     C++      28           高

稍微复杂一些的过滤条件可以使用多条件的过滤方式找出符合要求的数据项进行分组标记。

# Creating a new column called `分组标记（高龄/低龄,是否是Java）` and setting the value to `高/是` if the value in the column `已诞生多少年` is
# greater than or equal to 23 and the value in the column `编程语言` is equal to `Java`, otherwise it is setting the value to
# `低/否`.
dataframeE['分组标记（高龄/低龄,是否是Java）'] = np.where((dataframeE[u'已诞生多少年'] >= 23) & (dataframeE[u'编程语言'] == 'Java'), '高/是',
                                             '低/否')

# Printing the dataframeE.
print(dataframeE)

#      编程语言  已诞生多少年 分组标记（高龄/低龄） 分组标记（高龄/低龄,是否是Java）
# 0    Java      23           高                 高/是
# 1  Python      20           低                 低/否
# 2     C++      28           高                 低/否

5、提取数据

数据提取即是对符合要求的数据完成提取操作，DataFrame对象提取数据主要是按照标签值、标签值和位置以及数据位置进行提取。

DataFrame对象按照位置或位置区域提取数据，这里所说的位置其实就是DataFrame对象的索引。

基本上所有的操作都能够使用DataFrame对象的loc函数、iloc函数这两个函数来实现操作。

提取索引为2的DataFrame对象对应的行数据。

# Selecting the row with the index of 2.
res = dataframeE.loc[2]

# Printing the result of the operation.
print(res)

# 编程语言                   C++
# 已诞生多少年                  28
# 分组标记（高龄/低龄）              高
# 分组标记（高龄/低龄,是否是Java）    低/否
# Name: 2, dtype: object

提取索引0到1位置的所有的行数据。

# Selecting the rows with the index of 0 and 1.
res = dataframeE.loc[0:1]

# Printing the result of the operation.
print(res)

#      编程语言  已诞生多少年 分组标记（高龄/低龄） 分组标记（高龄/低龄,是否是Java）
# 0    Java      23           高                 高/是
# 1  Python      20           低                 低/否

按照前两行前两列的数据区域提取数据。

# 注意这里带有冒号:的iloc函数用法效果是和前面不一样的。

# Selecting the first two rows and the first two columns.
res = dataframeE.iloc[:2, :2]

# Printing the result of the operation.
print(res)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20

提取符合条件的数据项，对某一列数据中指定的值完成提取。

# 提取出编程语言这个列中数据内容是Java、C++的数据行。

# Selecting the rows where the value in the column `编程语言` is either `Java` or `C++`.
res = dataframeE.loc[dataframeE[u'编程语言'].isin(['Java', 'C++'])]

# Printing the result of the operation.
print(res)

#    编程语言  已诞生多少年 分组标记（高龄/低龄） 分组标记（高龄/低龄,是否是Java）
# 0  Java      23           高                 高/是
# 2   C++      28           高                 低/否

6、筛选数据

筛选数据是数据处理整个生命周期中的最后一个对原有数据的提取操作，通过各种逻辑判断条件的操作来完成数据筛选。

这里分别通过使用DataFrame对象的'与'、'或'、'非'三种常用的逻辑判断来实现下面的数据筛选操作。

# Creating a dataframe with two columns, one called `编程语言` and the other called `已诞生多少年`.
dataframeF = pd.DataFrame({"编程语言": ['Java', 'Python', 'C++'],
                           "已诞生多少年": [23, 20, 28]}, columns=['编程语言', '已诞生多少年'])

res = dataframeF.loc[(dataframeF[u'已诞生多少年'] > 25) & (dataframeF[u'编程语言'] == 'C++'), [u'编程语言', u'已诞生多少年']]

# Printing the result of the operation.
print(res)

#   编程语言  已诞生多少年
# 2  C++      28

res = dataframeF.loc[(dataframeF[u'已诞生多少年'] > 23) | (dataframeF[u'编程语言'] == 'Java'), [u'编程语言', u'已诞生多少年']]

# Printing the result of the operation.
print(res)

#    编程语言  已诞生多少年
# 0  Java      23
# 2   C++      28

res = dataframeF.loc[(dataframeF[u'编程语言'] != 'Java'), [u'编程语言', u'已诞生多少年']]

# Printing the result of the operation.
print(res)

#      编程语言  已诞生多少年
# 1  Python      20
# 2     C++      28

7、数据汇总

数据汇总通常是使用groupby函数对一个或多个列名称进行分组，再使用count函数统计分组后的数目。

res = dataframeF.groupby(u'编程语言').count()

# Printing the result of the operation.
print(res)

#         已诞生多少年
# 编程语言
# C++          1
# Java         1
# Python       1

res = dataframeF.groupby(u'编程语言')[u'已诞生多少年'].count()

# Printing the result of the operation.
print(res)

# 编程语言
# C++       1
# Java      1
# Python    1
# Name: 已诞生多少年, dtype: int64

res = dataframeF.groupby([u'编程语言',u'已诞生多少年'])[u'已诞生多少年'].count()

# Printing the result of the operation.
print(res)

# 编程语言    已诞生多少年
# C++     28        1
# Java    23        1
# Python  20        1
# Name: 已诞生多少年, dtype: int64

8、数据统计

数据统计的概念基本上和数学上的思路是一样的，首先是对数据进行采样，采样完成计算相关的标准差、协方差等相关的数据指标。

'''按照采样不放回的方式，随机获取DataFrame对象中的两条数据'''
res = dataframeF.sample(n=2, replace=False)

# Printing the result of the operation.
print(res)

#      编程语言  已诞生多少年
# 0    Java      23
# 1  Python      20

可以发现每次执行之后都会随机的从DataFrame的数据表中取出两条数据。

若是采样放回的方式时则可以将replace的属性设置为True即可。

# 计算出DataFrame对象的所有列的协方差
res = dataframeF.cov()

# Printing the result of the operation.
print(res)

#            已诞生多少年
# 已诞生多少年  16.333333

# 计算出DataFrame对象相关性
res = dataframeF.corr()

# Printing the result of the operation.
print(res)

#         已诞生多少年
# 已诞生多少年     1.0

以上就是Python数据处理中整个生命周期数据的处理过程以及常见的各个数据处理过程中的常见处理方式。

感谢大家一直以来的陪伴，Python集中营将会继续努力创作出更好的内容，感谢大家的阅读！

【往期推荐】

python中的精度计算应该用什么，类似Java中的Bigdecimal对象！

如何将Excel中全国各省份人口数据绘制成地域分布图？

周末自制了一个批量图片水印添加器！

吐血 python 诞生 DataFrame

有关吐血整理python数据分析利器pandas的八个生命周期！的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co

吐血整理python数据分析利器pandas的八个生命周期！

有关吐血整理python数据分析利器pandas的八个生命周期！的更多相关文章

随机推荐