python数据分析之描述性统计分析

啊心个。 2023-09-01 原文

一、数据获取（可用数据集）：

1、Kaggle&天池（大数据竞赛平台）；

2、UCI数据集网站（包含多领域数据）；

3、scikit-learn网址（适合学习阶段）

二、python常用的工具包：（即用即查）

数据分析工具：numpy ；scipy ；pandas

数据可视化工具：matplotlib

数据挖掘与建模工具：scikit-learn；TensorFlow

官方主页：NumPy 官方主页：SciPy 官方主页：Matplotlib — Visualization with Python

官方主页：scikit-learn: machine learning in Python — scikit-learn 0.16.1 documentation官方主页：pandas - Python Data Analysis Library

三、简单数据分类：

1、定类数据；

2、定序数据；

3、定距数据（间隔）：可以界定数据大小同时，可测定差值，但无绝对零点，乘除无意义。例如温度。

4、定比数据（比率）：可以界定数据大小，可测定差值，有绝对零点，乘除有意义，最常见的数值型数据。

四、基本的描述性分析

1、数据预览

df=pd.read_csv("D:/Users/DXX/Desktop/dxx.code/Python学习/HR_comma_sep.csv")
df.info()
df.describe()
df.sample(n=10)  #抽样个数
df.sample(frac=0.0005)  #抽样百分比

info()——用于获取 DataFrame 的简要摘要，以便快速浏览数据集

describe()——用于对数据进行统计学估计，输出行名分别为：count(行数)，mean(平均值)，std(标准差)，min(最小值），25%(第一四分位数)，50%(第二四分位数)，75%(第三四分位数)，max(最大值)。

2、异常值分析——需要对数据进行单变量及整体异常值分析（具体问题具体分析）

###对每组变量进行异常值分析
#"satisfaction_level"
sl_s=df["satisfaction_level"]
sl_s.describe()
sl_s[sl_s.isnull()]
df[sl_s.isnull()]
sl_s=sl_s.dropna()   #dropna（）删除nan；fillna（）填充nan
np.histogram(sl_s.values,bins=np.arange(0.0,1.1,0.1))   #负偏

#"last_evaluation"
le_s=df["last_evaluation"]
le_s.describe()
le_s[le_s<=1]
q_low=le_s.quantile(q=0.25)
q_high=le_s.quantile(q=0.75)
q_interval=q_high-q_low
k=1.5
le_s=le_s[le_s>q_low-k*q_interval][le_s<q_high+k*q_interval]   #上下四分位数阈值范围外
le_s
np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1))   #负偏

#"number_project"
np_s=df["number_project"]
np_s.describe()
np_s.value_counts(normalize=True).sort_index()   #normalize=True——返回比例；sort_index()——按照序号排序

#"average_montly_hours"&"time_spend_company"
amh_s=df["average_montly_hours"]
amh_s.describe()
amh_s=amh_s[amh_s>amh_s.quantile(q=0.25)-1.5*(amh_s.quantile(q=0.75)-amh_s.quantile(q=0.25))][amh_s<amh_s.quantile(q=0.75)+1.5*(amh_s.quantile(q=0.75)-amh_s.quantile(q=0.25))]
np.histogram(amh_s.values,bins=10) 
np.histogram(amh_s.values,bins=np.arange(amh_s.min(),amh_s.max()+10,10))   #范围——左闭右开
amh_s.value_counts(bins=np.arange(amh_s.min(),amh_s.max()+10,10))   #区间——左开右闭

#"Work_accident"&"left"&"promotion_last_5years"
wa_s=df["Work_accident"]
wa_s.describe()
wa_s.value_counts()
left_s=df["left"]
left_s.describe()
left_s.value_counts()
pl5_s=df["promotion_last_5years"]
pl5_s.describe()
pl5_s.value_counts()

#"salary" &"department"
df.salary.unique()   #查看salary的类别，包括哪些工作类型
s_s=df["salary"]
s_s.value_counts()
print(s_s.where(s_s!="nme"))
s_s.where(s_s!="nme").dropna()
df.department.unique()  #查看sales的类别，包括哪些工作类型
d_s=df["department"]
d_s.value_counts(normalize=True).sort_values()

###整体去除数据异常值
df=df.dropna(axis=0,how="any")  #axis=0—行；how=“any”有一个空值删除；“all”全为空删除
df=df[df["last_evaluation"]<=1][df["salary"]!="nme"]

最后实现：将数据中的nan值、超出正常范围的取值和不正确的属性值去除

3、对比分析

print(df.iloc[:,[1,8]])
df.loc[:,["last_evaluation","department"]]   
#loc和iloc的区别：loc按照表格名称索引；iloc按照位置索引；

loc和iloc的区别：loc按照表格名称索引；iloc按照位置索引

#分组，并计算均值
df.loc[:,["last_evaluation","department"]].groupby("department").mean()

#分组，应用匿名函数lambda进行组内运算
df.loc[:,["average_montly_hours","department"]].groupby("department")["average_montly_hours"].apply(lambda x:x.max()-x.min())   #自定义计算极差

groupby()——主要的作用是进行数据的分组以及分组后地组内运算（简单的均值计算 or 指自定义匿名函数运算）

4、分布分析

import scipy.stats as ss
import pandas as pd
import numpy as np
ss.norm  #生成一个正态分布的对象
ss.norm.stats(moments="mvsk")  #正态分布的均值；方差；偏度；峰度；
ss.norm.pdf(0.0)  #x=0对应的概率密度函数值
ss.norm.ppf(0.9)  #取值范围在[0,1]——累积分布函数为0.9对应的x值
ss.norm.cdf(2)    #x为2时，累积分布函数的取值.（范围[0,1]）
ss.norm.cdf(2)-ss.norm.cdf(-2)  
ss.norm.rvs(size=10)  #生成10个正态分布的数据
#（其他用法同正态分布）
ss.chi2   #卡方分布
ss.t    #t分布
ss.f   #f分布

五、数据简单可视化分析：matplotlib；seaborn；plotly

1、柱状图

###柱状图
plt.bar(np.arange(len(df["salary"].value_counts())),df["salary"].value_counts())  #arange()生成一个指定1终点2起点和3步长的列表
plt.show()

2、直方图

###直方图
sns.displot(df["satisfaction_level"],bins=10,kde=True) #kde=True有曲线
plt.show()

3、箱线图

###箱线图
sns.boxplot(y=df["time_spend_company"])
sns.boxplot(x=df["time_spend_company"],saturation=0.75,whis=3)  #whis上界

4、折线图

###折线图
sns.pointplot(x="time_spend_company",y="left",data=df)

5、饼图

###饼图
lbs=df["department"].value_counts().index
explodes=[0.1 if i=="sales" else 0 for i in lbs]  #与其他类别分隔开
plt.pie(df["department"].value_counts(normalize=True),explode=explodes,labels=lbs,autopct="%1.1f%%",colors=sns.color_palette("Greens"))

描述性 python xff E5 xff1 数据分析数据挖掘

有关python数据分析之描述性统计分析的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co