
AI(人工智能)是研究开发用于模拟、延伸和扩展人的智能理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支。
AI的应用场景:必备基础 "机器学习"

机器学习就是让机器有学习的能力,让机器通过"某种策略", 学习"历史数据"后,能够进行一定"预测"和"识别"的能力。

数据挖掘是指从大量数据中通过算法搜索隐藏于其中信息的过程。机器学习是支撑数据挖掘的手段。从关系上看,数据挖掘包括机器学习。
面临复杂且大量的新数据集时,传统数据分析计算常常遇到瓶颈,我们将常见瓶颈进行抽象。
1、高维性数据:随着5G及物联网的建设,数据量将会呈指数级的增长,常常遇到成百上千属性的维度,可想象,计算复杂度将迅速增加。
2、非结构化数据:非结构化数据也包含许多含金量的信息,例如视频、音频、文本等等,这些都是传统数据分析方法无法获取的信息。
3、自动及智能问题。传统分析方法常规流程就是"提出假设-验证假设",但这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设,因此需要自动、智能的手段。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
df1 = pd.DataFrame({'用户人数':[100,200,300,400,500],'销售额(元)':[1000,2000,3000,4000,5000]})
df1.plot(x='用户人数',y='销售额(元)')

from sklearn.linear_model import LinearRegression
x = df1['用户人数'].values.reshape(-1,1)
y = df1['销售额(元)']
lr = LinearRegression()
lr.fit(x,y)
# 模型的斜率
lr.coef_

lr.predict(np.array([600]).reshape(-1,1))

损失是对糟糕预测的惩罚。损失是一个数值,表示对于单个样本而言,模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。如下图:那副图的损失更大?红色箭头表示损失,蓝色线表示预测,可见图二的模型更准确(预测值-实际值),图一的损失更大。

模型训练表示通过有标签样本来学习(确定)所有权重和偏差的理想值。模型训练检查多个样本,并尝试找出可最大限度的减少损失的模型(方向)。比如:上面的线性回归,k 和 b 都是两个未知的参数 ,根据已有的样本 x 和 y 去训练模型。
y = kx + b
标签,白话说就是模型的 y 值,比如上面的线性回归标签就是销售额,抽象的说,标签就是结论。比如:【x,y】——【用户人数,销售额】——【100,1000】,就是一个样本。

注:MSE 常用于机器学习,但它不是唯一实用的损失函数,也不是适用于所有模型最佳的损失函数。
训练集:用于训练模型的子集
测试集:用于测试训练后模型的子集
① 通常将数据集的70%作为训练集,30%作为测试集(8 : 2也行),并且挑选的测试集的特征应该与训练集的特征相同。
② 通常需要在开始构建模型之前把数据集进行划分,防止数据窥探偏误。也就是说,我们避免了解太多关于测试集中的样本特点,防止我们认为的挑选有助于测试集数据的模型。这样的结果会过于乐观,但是实际上并没有预期的那样优秀。
③ 对于时序数据集、训练集和测试集需按时间划分。比如说我目前有 1-10 月的数据,那么 1-8 月作为训练集,9-10月作为测试级。
借助这种划分,可以对一个样本集进行训练,然后使用不同的样本集测试模型。采用两种分类以后,工作流程可能如下所示。



① 将所有的数据集均匀的分成五份
② 不重复的每次取出其中一份做测试集,用其他四份做训练集训练模型,之后计算该模型在测试集上的MSE
③ 将五次的MSE取平均得到的最后的MSE,作为评价模型的指标
过拟合: 指的是模型在训练集上表现的很好,但是在交叉验证集合和测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化能力较差。
举例:比如下图三个模型,绿色表示训练集样本,红线表示模型的预测能力,蓝色表示新样本点。看模型三在训练集表示很好,但是在新样本表现一般,所以说泛化能力较差,出现过拟合。模型一在训练集表现的也不好,新样本预测也不好,称之为欠拟合。最终我们选择模型二,泛化能力越好,就是越好的模型。

② 采用合适的模型,控制模型的复杂度。根据奥卡姆剃刀法则:在同样能够解释已知观测现象的假设中,我们应该挑选 "最简单" 的那一个,对于模型的设计而言,我们应该选择简单合适的模型解决复杂的问题。

- 监督学习常见模型
K-近邻(KNN)
线性回归(回归模型)
逻辑回归(分类模型)
支持向量机
决策树和随机森林
神经网络
- 无监督学习常见模型
a.聚类算法
k-means算法(kmeans)
密度聚类算法
最大期望算法(EM)
b.降维
主成分分析(PCA)
c.关联规则学习
Apriori
d. 时间序列预测
不同类型的模型评估方法不一。
先讲一个常见误区,大家是否觉得评估模型就用模型准确率 ?

- ① 一级指标(底层指标)
混淆矩阵:混淆矩阵就是分别统计分类模型、归错类、归对类的观测值个数,然后把结果放在一个表里展示出来,这个表就是混淆矩阵。- 真实值是positive,模型认为是positive的数量(True Positive =TP),真阳性。
- 真实值是positive,模型认为是negative的数量(False Negative = FN),这就是统计学上的第一类错误,弃真,假阴性。
- 真实值是negative,模型认为是positive的数量(False Positive = FP),这就是统计学上的第二类错误,纳伪,假阳性。
- 真实值是negative,模型认为是negative的数量(True Negative = TN),真阴性。

混淆矩阵怎么看?预测性分类模型肯定是希望越准越好,那么对应到混淆矩阵中,那肯定是希望TP和TN的数量大,而FP与FN的数量小。
② 二级指标
混淆矩阵里面统计的是个数,有时候面对大量的数据,光凭算个数很难衡量模型的优劣。因此混淆矩阵在基本的统计结果上又延伸了如下四个指标,我们称它为二级指标。
- accuracy (准确率):(TP + TN)/(TP + FN + FP + FN)
意义:分类模型所有判断正确的结果占总观测值的比重,一般不用- precision(准确率):TP /(TP + FP)
意义:表示预测为正的样本数有多少是对的,可解释性强,常用越高越好。- record (召回率、查全率,真正率TPR):TP / ( TP + FN)
意义:表示样本中的正例有多少被预测正确,可解释强,常用越高越好。- FPR (假正率) :FP / (FP + FN)
意义:表示当前被错误分到正样本类别中真实的负样本 所占所有负样本总数 的比例,越低越好。
- ③三级指标
- ROC curve,这个曲线就是以下 TPR 和 FPR 为轴,取不同的阈值点画的。
- 模型去预测分类型任务的时候,本质上是预测分类型的概率的,比如计算流失的概率,如果这个概率大于阈值0.5的话,这即为流失,所以这里就有个阈值的存在。不同的阈值,会有不同的TP 、FP。

ROC_AUC:AUC就是曲线下面积,我们根据ROC曲线想一下,到底我们这个曲线涨什么样的模型才算好呢?TR率是越高越好,FP率是越低越好,所以我们的曲线应该是越靠近Y轴越好。(粗鲁)理解最终可抽象成,ROC曲线下面积越大越好,即AUC越大越好。
AUC评判标准 :
0.5-0.7 : 效果较低,但预测股票已经很不错了。
0.7-0.85 : 效果一般
0.85-0.95 : 效果很好
0.95-1 : 效果非常好,但不太可能
f1值:(2*Precision * Recall/(Precision+Record)
意义:我们的模型想recall和precision都高,但鱼与熊掌不可兼得,如果想要找到它们的平衡,那就用f1值。
平均绝对误差MAE

均方误差 MSE

相对MAE而言,MSE的数值更大。
均方根误差 RMSE

中位绝对误差

r^2决定系数(拟合优度)

这似乎非常适得其反,因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误,一个名为UnixSocket的类显然在Windows机器上不能正常工作,等等)。我只是在浪费时间吗?我应该转向不同的脚本语言吗? 最佳答案 我在Windows上使用Ruby的经验很少,但是当我开始使用Ruby时,我是在Windows上,我的总体印象是它不是Windows原生系统。因此,在主要使用Windows多年之后,开始使用Ruby促使我切换回原来的系统Unix,这次是Linux。Rub
1.postman介绍Postman一款非常流行的API调试工具。其实,开发人员用的更多。因为测试人员做接口测试会有更多选择,例如Jmeter、soapUI等。不过,对于开发过程中去调试接口,Postman确实足够的简单方便,而且功能强大。2.下载安装官网地址:https://www.postman.com/下载完成后双击安装吧,安装过程极其简单,无需任何操作3.使用教程这里以百度为例,工具使用简单,填写URL地址即可发送请求,在下方查看响应结果和响应状态码常用方法都有支持请求方法:getpostputdeleteGet、Post、Put与Delete的作用get:请求方法一般是用于数据查询,
Ⅰ软件测试基础一、软件测试基础理论1、软件测试的必要性所有的产品或者服务上线都需要测试2、测试的发展过程3、什么是软件测试找bug,发现缺陷4、测试的定义使用人工或自动的手段来运行或者测试某个系统的过程。目的在于检测它是否满足规定的需求。弄清预期结果和实际结果的差别。5、测试的目的以最小的人力、物力和时间找出软件中潜在的错误和缺陷6、测试的原则28原则:20%的主要功能要重点测(eg:支付宝的支付功能,其他功能都是次要的)80%的错误存在于20%的代码中7、测试标准8、测试的基本要求功能测试性能测试安全性测试兼容性测试易用性测试外观界面测试可靠性测试二、质量模型衡量一个优秀软件的维度①功能性功
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称
最近在学习CAN,记录一下,也供大家参考交流。推荐几个我觉得很好的CAN学习,本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门,真的通透;秀!靠这篇我竟然2天理解了CAN协议!实战STM32F4CAN!原文链接:https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解(小白教程)原文链接:https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
@作者:SYFStrive @博客首页:HomePage📜:微信小程序📌:个人社区(欢迎大佬们加入)👉:社区链接🔗📌:觉得文章不错可以点点关注👉:专栏连接🔗💃:感谢支持,学累了可以先看小段由小胖给大家带来的街舞👉微信小程序(🔥)目录自定义组件-behaviors 1、什么是behaviors 2、behaviors的工作方式 3、创建behavior 4、导入并使用behavior 5、behavior中所有可用的节点 6、同名字段的覆盖和组合规则总结最后自定义组件-behaviors 1、什么是behaviorsbehaviors是小程序中,用于实现
遍历文件夹我们通常是使用递归进行操作,这种方式比较简单,也比较容易理解。本文为大家介绍另一种不使用递归的方式,由于没有使用递归,只用到了循环和集合,所以效率更高一些!一、使用递归遍历文件夹整体思路1、使用File封装初始目录,2、打印这个目录3、获取这个目录下所有的子文件和子目录的数组。4、遍历这个数组,取出每个File对象4-1、如果File是否是一个文件,打印4-2、否则就是一个目录,递归调用代码实现publicclassSearchFile{publicstaticvoidmain(String[]args){//初始目录Filedir=newFile("d:/Dev");Datebeg
ES一、简介1、ElasticStackES技术栈:ElasticSearch:存数据+搜索;QL;Kibana:Web可视化平台,分析。LogStash:日志收集,Log4j:产生日志;log.info(xxx)。。。。使用场景:metrics:指标监控…2、基本概念Index(索引)动词:保存(插入)名词:类似MySQL数据库,给数据Type(类型)已废弃,以前类似MySQL的表现在用索引对数据分类Document(文档)真正要保存的一个JSON数据{name:"tcx"}二、入门实战{"name":"DESKTOP-1TSVGKG","cluster_name":"elasticsear
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器,我做错了什么? 最佳答案 失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame