在前面的几个章节中,我们介绍了几种基于不同半监督假设的模型优化方案,包括MeanTeacher等一致性正则约束,FGM等对抗训练,minEntropy等最小熵原则,以及Mixup等增强方案。虽然出发点不同但上述优化方案都从不同的方向服务于半监督的3个假设,让我们重新回顾下(哈哈自己抄袭自己):moothness平滑度假设:近朱者赤近墨者黑,两个样本在高密度空间特征相近,则label应该一致。优化方案如Mixup,一致性正则和对抗学习Cluster聚类假设:高维特征空间中,同一个簇的样本应该有相同的label,这个强假设其实是Smoothness的特例Low-densitySeparation低
小样本利器2.文本对抗+半监督FGSM&VAT&FGM代码实现上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大。FGM的tensorflow实现详见Github-SimpleClassification我们会集中讨论3个问题对抗样本为何存在对抗训练实现方案对抗训练为何有效存在性对抗训练下面我们看下如何在模型训练过程中引入对抗样
小样本利器2.文本对抗+半监督FGSM&VAT&FGM代码实现上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大。FGM的tensorflow实现详见Github-SimpleClassification我们会集中讨论3个问题对抗样本为何存在对抗训练实现方案对抗训练为何有效存在性对抗训练下面我们看下如何在模型训练过程中引入对抗样
这个系列我们用现实中经常碰到的小样本问题来串联半监督,文本对抗,文本增强等模型优化方案。小样本的核心在于如何在有限的标注样本上,最大化模型的泛化能力,让模型对unseen的样本拥有很好的预测效果。之前在NER系列中我们已经介绍过DataAugmentation,不熟悉的童鞋看过来中文NER的那些事儿4.数据增强在NER的尝试。样本增强是通过提高标注样本的丰富度来提升模型泛化性,另一个方向半监督方案则是通过利用大量的相同领域未标注数据来提升模型的样本外预测能力。这一章我们来聊聊半监督方案中的一致性正则~一致性正则~一个好的分类器应该对相似的样本点给出一致的预测,于是在训练中通过约束样本和注入噪声
这个系列我们用现实中经常碰到的小样本问题来串联半监督,文本对抗,文本增强等模型优化方案。小样本的核心在于如何在有限的标注样本上,最大化模型的泛化能力,让模型对unseen的样本拥有很好的预测效果。之前在NER系列中我们已经介绍过DataAugmentation,不熟悉的童鞋看过来中文NER的那些事儿4.数据增强在NER的尝试。样本增强是通过提高标注样本的丰富度来提升模型泛化性,另一个方向半监督方案则是通过利用大量的相同领域未标注数据来提升模型的样本外预测能力。这一章我们来聊聊半监督方案中的一致性正则~一致性正则~一个好的分类器应该对相似的样本点给出一致的预测,于是在训练中通过约束样本和注入噪声
1.梯度下降梯度下降(GradientDescent)是计算机计算能力有限的条件下启用的逐步逼近、迭代求解方法,在理论上不保证下降求得最优解。e.g.假设有三维曲面表达函数空间,长(x)、宽(y)轴为子变量,高(z)是因变量,若使用梯度下降法求解因变量最低点的步骤如下:任取一点作为起始点。查看当前点向哪个方向移动得到最小的z值,并向该方向移动。重复上述步骤,直到无法找到更小的z值,此时认为达到最低点。受起始点和目标函数的约束,有时该法无法找到全局最优点,但有着比OLS更快的求解速度,因此被广泛应用。根据原理介绍几个梯度下降求解算法概念:步长(learningrate):每一步梯度下降时向目标方
1.梯度下降梯度下降(GradientDescent)是计算机计算能力有限的条件下启用的逐步逼近、迭代求解方法,在理论上不保证下降求得最优解。e.g.假设有三维曲面表达函数空间,长(x)、宽(y)轴为子变量,高(z)是因变量,若使用梯度下降法求解因变量最低点的步骤如下:任取一点作为起始点。查看当前点向哪个方向移动得到最小的z值,并向该方向移动。重复上述步骤,直到无法找到更小的z值,此时认为达到最低点。受起始点和目标函数的约束,有时该法无法找到全局最优点,但有着比OLS更快的求解速度,因此被广泛应用。根据原理介绍几个梯度下降求解算法概念:步长(learningrate):每一步梯度下降时向目标方
1.线性模型有监督学习是通过已知的样本产生预测模型的学习方法,任何有监督学习模型都可被想象成一个函数:\[y=f(x_1,x_2,x_3,...x_n)\tag{1-1}\]其中,\(x_1,x_2,x_3...x_n\)是模型的n维的特征值,\(y\)是要预测的目标值/分类,当\(y\)是可枚举的类型时,对应分类问题(classification);\(y\)为连续值时,该模型解决回归问题(regression)。线性回归(LinearRegression)在机器学习中被用来解决学习特征和目标值都是连续值类型的问题,可定义为多项式函数:\[y=w_0+w_1x_1+w_2x_2+...+w_
1.线性模型有监督学习是通过已知的样本产生预测模型的学习方法,任何有监督学习模型都可被想象成一个函数:\[y=f(x_1,x_2,x_3,...x_n)\tag{1-1}\]其中,\(x_1,x_2,x_3...x_n\)是模型的n维的特征值,\(y\)是要预测的目标值/分类,当\(y\)是可枚举的类型时,对应分类问题(classification);\(y\)为连续值时,该模型解决回归问题(regression)。线性回归(LinearRegression)在机器学习中被用来解决学习特征和目标值都是连续值类型的问题,可定义为多项式函数:\[y=w_0+w_1x_1+w_2x_2+...+w_
无监督学习-K-means算法1、什么是无监督学习一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组,以便广告客户可以通过有关联的广告接触到他们的目标客户。Airbnb需要将自己的房屋清单分组成不同的社区,以便用户能更轻松地查阅这些清单。一个数据科学团队需要降低一个大型数据集的维度的数量,以便简化建模和降低文件大小。我们可以怎样最有用地对其进行归纳和分组?我们可以怎样以一种压缩格式有效地表征数据?这都是无监督学习的目标,之所以称之为无监督,是因为这是从无标签的数据开始学习的。2、无监督学习包含算法聚类K-means(K均值聚类)降维PCA3、K-means原理我们先来看一下