之前写一个作业样本不均衡问题。然后查了很多文章都说要更换评价指标,不能再使用准确率了,要计算F值。我看了一下F值怎么计算,看了挺多文章的,但是感觉说的比较迷惑,或者说法比较拗口。最后还是自己再总结一个。查准率、查全率、F值我们平时对于一个模型预测的准不准,我们最先想到的是用准确率(Accuracy)进行评价。$$A=\frac{true}{total}$$这个虽然常用,但不能满足所有任务的需求。所以我们可以引入查准率和查全率。查准率(Precision):某一分类你预测对了多少个。$P=\frac{预测对的某一类}{你预测的某一类}$查全率(Recall):某一分类你预测出来多少个。$R=\f
之前写一个作业样本不均衡问题。然后查了很多文章都说要更换评价指标,不能再使用准确率了,要计算F值。我看了一下F值怎么计算,看了挺多文章的,但是感觉说的比较迷惑,或者说法比较拗口。最后还是自己再总结一个。查准率、查全率、F值我们平时对于一个模型预测的准不准,我们最先想到的是用准确率(Accuracy)进行评价。$$A=\frac{true}{total}$$这个虽然常用,但不能满足所有任务的需求。所以我们可以引入查准率和查全率。查准率(Precision):某一分类你预测对了多少个。$P=\frac{预测对的某一类}{你预测的某一类}$查全率(Recall):某一分类你预测出来多少个。$R=\f
一.噪声数据噪声数据(NoisyData)就是无意义的数据,这个词通常作为损坏数据的同义词使用。1.分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑2.回归:用一个函数(回归函数)拟合数据来光滑数据。3.聚类:将类似的值聚集为簇A4.其他:如数据归约、离散化和概念分层1.1分箱通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)箱中的最大和最小值被视为箱边界。箱中的每一个值都被最近的边界值替换。1.2分箱法光滑数据1.3噪声数据1.回归:用一个函数(回归函数)拟合数据来光滑数据。线性回归
一.噪声数据噪声数据(NoisyData)就是无意义的数据,这个词通常作为损坏数据的同义词使用。1.分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑2.回归:用一个函数(回归函数)拟合数据来光滑数据。3.聚类:将类似的值聚集为簇A4.其他:如数据归约、离散化和概念分层1.1分箱通过考察数据的“近邻”(周围的值)来光滑有序数据的值。局部光滑。划分:等频、等宽光滑:用箱均值、用箱中位数、用箱边界(去替换箱中的每个数据)箱中的最大和最小值被视为箱边界。箱中的每一个值都被最近的边界值替换。1.2分箱法光滑数据1.3噪声数据1.回归:用一个函数(回归函数)拟合数据来光滑数据。线性回归