? 作者:韩信子@ShowMeAI
?数据分析 ◉ 技能提升系列:https://www.showmeai.tech/tutorials/33
?AI 面试题库系列:https://www.showmeai.tech/tutorials/48
?本文地址:https://www.showmeai.tech/article-detail/301
? 声明:版权所有,转载请联系平台与作者并注明出处
? 收藏ShowMeAI查看更多精彩内容
因为疫情,2年多的时间里,大家多了很多居家的经历,但是运动健康并不能因为居家而停止,健身随时随处可以进行!健身环大冒险等大热,而前阵子的刘畊宏跳操,带火了一大票畊宏男孩女孩,可穿戴设备市场大涨,而这些设备也记录了大量的运动数据。
现在有非常多的运动穿戴设备,比如简单的小米手环,到fitbit,到apple watch,而数据科学领域的从业者们,我们众多的数据分析师和数据科学家,可以轻松分析健身设备上收集的数据,把数据科学和医疗保健结合起来。
在本篇内容中,ShowMeAI就基于 fitbit 手环记录的一部分数据,讲解如何进行有效的数据分析。本次使用的数据集可以在 Kaggle 平台 上免费下载。大家也可以通过ShowMeAI的网盘直接下载。
? 实战数据集下载(百度网盘):公众号『ShowMeAI研究中心』回复『实战』,或者点击 这里 获取本文 [12] 运动手环的数据分析挖掘与建模案例 『Fitabase 运动佩戴设备数据集』
⭐ ShowMeAI官方GitHub:https://github.com/ShowMeAI-Hub
本篇内容涉及的工具库,大家可以参考ShowMeAI制作的工具库速查表和教程进行学习和快速使用。
我们先导入所需工具库,并读取数据:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
# 读取数据
data = pd.read_csv('dailyActivity_merged.csv')
print(data.head())
该数据集由2016年12月3日-2016年12月5日期间通过亚马逊Mechanical Turk进行的分布式调查的受访者产生。30名符合条件的Fitbit用户同意提交个人追踪器数据,包括身体活动、心率和睡眠监测的分钟级输出。个人报告可以通过输出会话ID(A列)或时间戳(B列)进行解析。输出结果之间的差异代表了不同类型的Fitbit追踪器的使用和个人追踪行为/偏好。
我们先看看这个数据集的缺失值情况:
data.isnull().sum()
我们可以通过info和describe查看数据基本信息。
data.info()
我们在数据中看到记录时间的字段ActivityDate,我们把它转换为时间型,以便进行后续进一步分析。
# 更改 ActivityDate 的数据类型。
data["ActivityDate"] = pd.to_datetime(data["ActivityDate"], format="%m/%d/%Y")
我们从字段名称中可以看到,有记录『非常活跃』、『相当活跃』、『轻度活跃』和『久坐』的时间信息,分别是VeryActiveMinutes、FairlyActiveMinutes、LightlyActiveMinutes、SedentaryMinutes,我们对所有时间做一个汇总。
data["TotalMinutes"] = data["VeryActiveMinutes"] + data["FairlyActiveMinutes"] + data["LightlyActiveMinutes"] + data["SedentaryMinutes"]
data["TotalMinutes"].sample(5)
我们通过describe函数查看一下数据集的描述性统计数据。
data.describe()
数据集中的“卡路里”列记录了每天燃烧多少卡路里,我们基于它做一点分析。
# 研究一下每日总步数和消耗的卡路里之间的联系。
figure = px.scatter(data_frame = data, x="Calories",
y="TotalSteps", size="VeryActiveMinutes",
trendline="ols",
title="总步数和消耗的卡路里的关系")
figure.show()
从上图可以看出,每日热量消耗与所采取的总步数之间存在直接关联。 同样的思路我们分析一下总路程和消耗卡路里的关系:
# 研究一下每日总路程和消耗的卡路里之间的联系。
figure = px.scatter(data_frame = data.dropna(), x="Calories",
y="TotalDistance", size="VeryActiveMinutes",
trendline="lowess", color='TotalSteps',
title="总路程和消耗的卡路里的关系")
figure.show()
上图可以看到,总路程和卡路里之间也是正相关的关系。下面让我们分析一下一天中的平均总活跃分钟数。
label = ["Very Active Minutes", "Fairly Active Minutes", "Lightly Active Minutes", "Inactive Minutes"]
counts = data[["VeryActiveMinutes", "FairlyActiveMinutes", "LightlyActiveMinutes", "SedentaryMinutes"]].mean()
colors = ["gold","lightgreen", "pink", "blue"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text="总活动时间")
fig.update_traces(hoverinfo="label+percent", textinfo="value", textfont_size=24, marker=dict(colors=colors, line=dict(color="black", width=3)))
fig.show()
一些观察结论:
下面我们展开做一点更详细的分析,我们先抽取更细化的信息,我们添加一个新字段“Day”记录星期几。
data["Day"] = data["ActivityDate"].dt.day_name()
data["Day"].head()
下面我们可视化对比一下一周中每一天的『非常活跃』、『相当活跃』和『轻度活跃』的分钟数。
fig = go.Figure()
fig.add_trace(go.Bar(
x=data["Day"],
y=data["VeryActiveMinutes"],
name="Very Active",
marker_color="purple"
))
fig.add_trace(go.Bar(
x=data["Day"],
y=data["FairlyActiveMinutes"],
name="Fairly Active",
marker_color="green"
))
fig.add_trace(go.Bar(
x=data["Day"],
y=data["LightlyActiveMinutes"],
name="Lightly Active",
marker_color="pink"
))
fig.update_layout(barmode="group", xaxis_tickangle=-45)
fig.show()
让我们看看一周中每一天的非活动分钟数。
day = data["Day"].value_counts()
label = day.index
counts = data["SedentaryMinutes"]
colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='Inactive Minutes Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30,
marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()
从这份数据看来,星期四是大家最不活跃的一天。 下面我们来看看一周中每一天燃烧的卡路里数。
calories = data["Day"].value_counts()
label = calories.index
counts = data["Calories"]
colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text='Calories Burned Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30, marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()
从上图可以看出,星期二是这份数据集中的用户最活跃的日子之一,这一天燃烧的卡路里最多。 下面我们分析一下每日步数:
import seaborn as sns
sns.set(rc={'figure.figsize':(8,6)})
activity_by_week_day = sns.barplot(x="Day", y="TotalSteps", data=data,
order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'],
capsize=.2)
下面我们搭建一个模型,对于每日消耗的卡路里进行建模预估。
本部分涉及到的模型知识与建模操作方法,参见ShowMeAI以下部分教程:
我们剔除ID类特征和日期特征,把『Calories』作为目标,把其他字段作为特征,注意其中的『星期几/Day』字段是类别型,我们要单独编码一下。
features = ['TotalSteps', 'TotalDistance', 'TrackerDistance', 'LoggedActivitiesDistance', 'VeryActiveDistance', 'ModeratelyActiveDistance', 'LightActiveDistance', 'SedentaryActiveDistance', 'VeryActiveMinutes', 'FairlyActiveMinutes', 'LightlyActiveMinutes', 'SedentaryMinutes', 'TotalMinutes', 'Day']
target = 'Calories'
# 数据切分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[features], data[target], test_size=0.2, random_state=0)
# 使用lightgbm训练
from lightgbm import LGBMRegressor
lgbm = LGBMRegressor(n_estimators=1000, learning_rate=0.05, random_state=0)
# 「星期几」字段编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X_train['Day'] = le.fit_transform(X_train['Day'])
X_test['Day'] = le.transform(X_test['Day'])
# 拟合模型
lgbm.fit(X_train, y_train)
# 测试集预估
predictions = lgbm.predict(X_test)
# 计算测试集RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))
运行得到结果为RMSE: 373.128953
为了更准确地进行建模和评估,我们使用网格搜索交叉验证进行超参数优化:
# 使用网格搜索对lightgbm模型进行超参数调优
from sklearn.model_selection import GridSearchCV
parameters = {
'learning_rate': [0.02, 0.05, 0.08, 0.1],
'max_depth': [5, 7, 10],
'feature_fraction': [0.6, 0.8, 0.9],
'subsample': [0.6, 0.8, 0.9],
'n_estimators': [100, 200, 500, 1000]}
# 网格搜索
grid_search = GridSearchCV(lgbm, parameters, cv=5, n_jobs=-1, verbose=1)
# 最佳模型
grid_search.fit(X_train, y_train)
best_lgbm = grid_search.best_estimator_
# 输出最佳超参数
print(grid_search.best_params_)
# 测试集预估
predictions = best_lgbm.predict(X_test)
# 计算RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))
最终结果输出
{'feature_fraction': 0.6, 'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 1000, 'subsample': 0.6}
RMSE: 352.782209
我们可以看到,调参后的模型在测试集上表现更优。最后我们输出一下特征重要度,看看那些因素对于卡路里消耗更加重要:
#绘制特征重要度
import matplotlib.pyplot as plt
plt.figure(figsize=(20,10))
importance = best_lgbm.feature_importances_
feature_importance = pd.DataFrame({'feature': features, 'importance': importance})
feature_importance = feature_importance.sort_values('importance', ascending=True)
feature_importance.plot.barh(x='feature', y='importance', figsize=(20,10))
可以看到,每日总步数对结果影响最大,大家要多多抬腿多多运动!
在railstutorial中,作者为什么选择使用这个(代码list10.25):http://ruby.railstutorial.org/chapters/updating-showing-and-deleting-usersnamespace:dbdodesc"Filldatabasewithsampledata"task:populate=>:environmentdoRake::Task['db:reset'].invokeUser.create!(:name=>"ExampleUser",:email=>"example@railstutorial.org",:passwo
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
我正在尝试在Rails上安装ruby,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手