基于单层决策树的AdaBoost算法原理+python实现

EisenJi 2023-03-28 原文

这里整理一下实验课实现的基于单层决策树的弱分类器的AdaBoost算法。

由于是初学，实验课在找资料的时候看到别人的代码中有太多英文的缩写，不容易看懂，而且还要同时看代码实现的细节、算法的原理什么的，就体验很不好。

于是我这里代码中英文没有用缩写，也尽量把思路写清楚。

基本概念

集成学习：通过组合多个基分类器（base classifier）来完成学习任务，基分类器一般采用弱学习器。
弱学习器：只学习正确率仅仅略优于随机猜测的学习器。通过集成方法，就能组合成一个强学习器。
Bagging和Boosting：集成学习主要的两种把弱分类器组装成强分类器的方法。
AdaBoost是adaptive boosting的缩写。
Bagging：从原始数据集中有放回地抽训练集，每轮训练集之间是独立的。每次使用一个训练集得到一个模型。分类问题就让这些模型投票得到分类结果，回归问题就算这些模型的均值。
Boosting：每一轮的训练集不变，只是训练集中每个样本在分类器中的权重发生变化，并且每一轮的样本的权重分布依赖上一轮的分类结果。每个弱分类器也都有各自的权重，分类误差小的分类器有更大的权重。
举个例子：Bagging+决策树=随机森林；Boosting+决策树=提升树
AdaBoost：计算样本权重->计算错误率->计算弱学习器的权重->更新样本权重...重复。

原理+代码实现

就是构造弱分类器，再根据一定方法组装起来。

from numpy import *

加载数据集

用的是实验课给的数据集(horseColic 马疝病数据集)...这部分不多说了。带_array后缀的是列表，带_matrix后缀的是把相应array变成的np矩阵。

def load_dataset(filename):
    num_feature = len(open(filename).readline().split('\t'))
    data_array = []
    label_array = []
    f = open(filename)
    for line in f.readlines():
        line_array = []
        current_line = line.strip().split('\t')
        for i in range(num_feature - 1):
            line_array.append(float(current_line[i]))
            data_array.append(line_array)
            label_array.append(float(current_line[-1]))
    return data_array, label_array

基于单层决策树构建弱分类器

1、废话文学一下，stump的意思是树桩，单层决策树就是只有一层的决策树，就是简单的通过大于和小于根据阈值（threshold）把数据分为两堆。在阈值一边的数据被分到类别-1，另一边分到类别1。

def stump_classify(data_matrix, dimension, threshold, inequality_sign):
    # dimension是数据集第dimension维的特征，对应data_matrix的第dimension列
    return_array = ones((shape(data_matrix)[0], 1))
    if inequality_sign == 'less_than':
        return_array[data_matrix[:, dimension] <= threshold] = -1.0
    else:
        return_array[data_matrix[:, dimension] > threshold] = -1.0
    return return_array

2、遍历上面stump_classify函数所有可能的输入值，找到最佳的单层决策树（给定权重向量d时所得到的最佳单层决策树）。best_stump就是最佳的单层决策树，一个字典，里面存放这个单层决策树的'dimension'（上一段代码注释）、'threshold'（阈值）、'inequality_sign'（不等号，less_than和greater_than）。

结合代码和注释看即可。

def build_stump(data_array, class_labels, d):
    data_matrix = mat(data_array)
    label_matrix = mat(class_labels).T
    m, n = shape(data_matrix)
    num_steps = 10.0
    best_stump = {}  # 用于存放给定权重向量d时所得到的最佳单层决策树的相关信息
    best_class_estimate = mat(zeros((m, 1)))
    '''
    将最小错误率min_error设为inf
    对数据集中的每一个特征（第一层循环）：
        对每一个步长（第二层循环）：
            对每一个不等号（第三层循环）：
                建立一棵单层决策树并利用加权数据集对它进行测试
                如果错误率低于min_error，则将当前单层决策树设为最佳单层决策树
    返回最佳单层决策树
    '''
    min_error = inf
    for i in range(n):
        range_min = data_matrix[:, i].min()
        range_max = data_matrix[:, i].max()
        step_size = (range_max - range_min) / num_steps
        for j in range(-1, int(num_steps) + 1):
            for inequality_sign in ['less_than', 'greater_than']:
                threshold = (range_min + float(j) * step_size)
                predicted_values = stump_classify(data_matrix, i, threshold, inequality_sign)  # 调用stump_classify函数来得到预测结果
                error_array = mat(ones((m, 1)))  # 这是一个与分类预测结果相同长度的列向量，如果predicted_values中的值不等于label_matrix中的标签值，对应位置就为1，否则为0.
                error_array[predicted_values == label_matrix] = 0
                weighted_error = d.T * error_array  # 这个是加权错误率，这个将用来更新权重向量d
                if weighted_error < min_error:
                    min_error = weighted_error
                    best_class_estimate = predicted_values.copy()
                    best_stump['dimension'] = i
                    best_stump['threshold'] = threshold
                    best_stump['inequality_sign'] = inequality_sign
    return best_stump, min_error, best_class_estimate

加权错误率weighted_error是与AdaBoost交互的地方，每次用于更新权重向量d.

Adaboost的训练过程和分类

训练

训练出来的返回值是： weak_classifier_array, aggregate_class_estimate，一个存放了很多弱分类器的数组和集成学习的类别估计值。

于是思路是，对于每次迭代：利用build_stump找到最佳的单层决策树；把这个最佳单层决策树放进弱分类器数组；利用错误率计算弱分类器的权重α；更新权重向量d；更新集成学习的类别估计值；更新错误率。

里面出现的公式：

错误率：
利用错误率计算弱分类器的权重α：

可见错误率ε越高，这个分类器的权重就越小。代码中：

alpha = float(0.5 * log((1.0 - error) / max([error, 1e-16])))

（注：max函数里面加中括号是因为之前from numpy import *了，这个max是np.amax，不加中括号会有一个warning.）

更新权重向量d：就是使被分错的样本在接下来学习中可以重点对其进行学习。

第i个样本分类正确就是
，Zt是sum(D)

上面公式浅看一下，编程是对着化简合并后的公式来的：

代码中：

exp的指数：exponent = multiply(-1 * alpha * mat(class_labels).T, class_estimate)

d：d = multiply(d, exp(exponent))和d = d / d.sum()

集成学习的类别估计值（aggregate_class_estimate）就是把每个弱分类器给出的估计值按照每个弱分类器的权重累加起来。代码中是在一个循环里：aggregate_class_estimate += alpha * class_estimate

下面直接放代码应该就很清楚了：

def ada_boost_train_decision_stump(data_array, class_labels, num_iteration=40):
    weak_classifier_array = []
    m = shape(data_array)[0]
    d = mat(ones((m, 1)) / m)
    aggregate_class_estimate = mat(zeros((m, 1)))
    for i in range(num_iteration):
        best_stump, error, class_estimate = build_stump(data_array, class_labels, d)  # 利用build_stump找到最佳单层决策树
        alpha = float(0.5 * log((1.0 - error) / max([error, 1e-16])))  # 算α
        best_stump['alpha'] = alpha
        weak_classifier_array.append(best_stump)  # 把这个最佳单层决策树扔进弱分类器数组
        exponent = multiply(-1 * alpha * mat(class_labels).T, class_estimate)  # 算d
        d = multiply(d, exp(exponent))
        d = d / d.sum()
        aggregate_class_estimate += alpha * class_estimate  # 算集成学习的类别估计值
        aggregate_errors = multiply(sign(aggregate_class_estimate) != mat(class_labels).T, ones((m, 1)))
        error_rate = aggregate_errors.sum() / m
        if error_rate == 0.0:  # 如果错误率为0了就退出循环
            break
    return weak_classifier_array, aggregate_class_estimate

分类

就是写个循环，把上面得到的弱分类器数组里面每个弱分类器的放进stump_classify函数里面跑一遍，根据每个的权重把结果累加起来即可。

def ada_boost_classify(data_array, classifier_array):
    data_matrix = mat(data_array)
    m = shape(data_matrix)[0]
    aggregate_class_estimate = mat(zeros((m, 1)))
    for i in range(len(classifier_array)):
        class_estimate = stump_classify(data_matrix,
                                        classifier_array[i]['dimension'],
                                        classifier_array[i]['threshold'],
                                        classifier_array[i]['inequality_sign'])
        aggregate_class_estimate += classifier_array[i]['alpha'] * class_estimate
    return sign(aggregate_class_estimate)

以上就是实现过程了。下面再放上比较正规的伪代码：

完整代码

from numpy import *


def load_dataset(filename):
    num_feature = len(open(filename).readline().split('\t'))
    data_array = []
    label_array = []
    f = open(filename)
    for line in f.readlines():
        line_array = []
        current_line = line.strip().split('\t')
        for i in range(num_feature - 1):
            line_array.append(float(current_line[i]))
            data_array.append(line_array)
            label_array.append(float(current_line[-1]))
    return data_array, label_array


def stump_classify(data_matrix, dimension, threshold, inequality_sign):
    return_array = ones((shape(data_matrix)[0], 1))
    if inequality_sign == 'less_than':
        return_array[data_matrix[:, dimension] <= threshold] = -1.0
    else:
        return_array[data_matrix[:, dimension] > threshold] = -1.0
    return return_array


def build_stump(data_array, class_labels, d):
    data_matrix = mat(data_array)
    label_matrix = mat(class_labels).T
    m, n = shape(data_matrix)
    num_steps = 10.0
    best_stump = {}
    best_class_estimate = mat(zeros((m, 1)))
    min_error = inf
    for i in range(n):
        range_min = data_matrix[:, i].min()
        range_max = data_matrix[:, i].max()
        step_size = (range_max - range_min) / num_steps
        for j in range(-1, int(num_steps) + 1):
            for inequality_sign in ['less_than', 'greater_than']:
                threshold = (range_min + float(j) * step_size)
                predicted_values = stump_classify(data_matrix, i, threshold, inequality_sign)
                error_array = mat(ones((m, 1)))
                error_array[predicted_values == label_matrix] = 0
                weighted_error = d.T * error_array
                if weighted_error < min_error:
                    min_error = weighted_error
                    best_class_estimate = predicted_values.copy()
                    best_stump['dimension'] = i
                    best_stump['threshold'] = threshold
                    best_stump['inequality_sign'] = inequality_sign
    return best_stump, min_error, best_class_estimate


def ada_boost_train_decision_stump(data_array, class_labels, num_iteration=40):
    weak_classifier_array = []
    m = shape(data_array)[0]
    d = mat(ones((m, 1)) / m)
    aggregate_class_estimate = mat(zeros((m, 1)))
    for i in range(num_iteration):
        best_stump, error, class_estimate = build_stump(data_array, class_labels, d)
        alpha = float(0.5 * log((1.0 - error) / max([error, 1e-16])))
        best_stump['alpha'] = alpha
        weak_classifier_array.append(best_stump)
        exponent = multiply(-1 * alpha * mat(class_labels).T, class_estimate)
        d = multiply(d, exp(exponent))
        d = d / d.sum()
        aggregate_class_estimate += alpha * class_estimate
        aggregate_errors = multiply(sign(aggregate_class_estimate) != mat(class_labels).T, ones((m, 1)))
        error_rate = aggregate_errors.sum() / m
        if error_rate == 0.0:
            break
    return weak_classifier_array, aggregate_class_estimate


def ada_boost_classify(data_array, classifier_array):
    data_matrix = mat(data_array)
    m = shape(data_matrix)[0]
    aggregate_class_estimate = mat(zeros((m, 1)))
    for i in range(len(classifier_array)):
        class_estimate = stump_classify(data_matrix,
                                        classifier_array[i]['dimension'],
                                        classifier_array[i]['threshold'],
                                        classifier_array[i]['inequality_sign'])
        aggregate_class_estimate += classifier_array[i]['alpha'] * class_estimate
    return sign(aggregate_class_estimate)


def main():
    data_array, label_array = load_dataset('AdaBoost/horseColicTraining2.txt')
    weak_classier_array, aggregate_class_estimate = ada_boost_train_decision_stump(data_array, label_array, 40)
    test_array, test_label_array = load_dataset('AdaBoost/horseColicTest2.txt')
    print(weak_classier_array)
    predictions = ada_boost_classify(data_array, weak_classier_array)
    error_array = mat(ones((len(data_array), 1)))
    print('error rate of training set: %.3f%%'
          % float(error_array[predictions != mat(label_array).T].sum() / len(data_array) * 100))
    predictions = ada_boost_classify(test_array, weak_classier_array)
    error_array = mat(ones((len(test_array), 1)))
    print('error rate of test set: %.3f%%'
          % float(error_array[predictions != mat(test_label_array).T].sum() / len(test_array) * 100))


if __name__ == '__main__':
    main()

输出是：前面是训练得到的弱分类器，后面是错误率。

[{'dimension': 9, 'threshold': 3.0, 'inequality_sign': 'greater_than', 'alpha': 0.4616623792657674}, {'dimension': 17, 'threshold': 52.5, 'inequality_sign': 'greater_than', 'alpha': 0.31248245042467104}, {'dimension': 3, 'threshold': 55.199999999999996, 'inequality_sign': 'greater_than', 'alpha': 0.2868097320169572}, {'dimension': 18, 'threshold': 62.300000000000004, 'inequality_sign': 'less_than', 'alpha': 0.23297004638939556}, {'dimension': 10, 'threshold': 0.0, 'inequality_sign': 'less_than', 'alpha': 0.19803846151213728}, {'dimension': 5, 'threshold': 2.0, 'inequality_sign': 'greater_than', 'alpha': 0.1884788734902058}, {'dimension': 12, 'threshold': 1.2, 'inequality_sign': 'less_than', 'alpha': 0.1522736899747682}, {'dimension': 7, 'threshold': 1.2, 'inequality_sign': 'greater_than', 'alpha': 0.15510870821690584}, {'dimension': 5, 'threshold': 0.0, 'inequality_sign': 'less_than', 'alpha': 0.1353619735335944}, {'dimension': 4, 'threshold': 28.799999999999997, 'inequality_sign': 'less_than', 'alpha': 0.12521587326132164}, {'dimension': 11, 'threshold': 2.0, 'inequality_sign': 'greater_than', 'alpha': 0.13347648128207715}, {'dimension': 9, 'threshold': 4.0, 'inequality_sign': 'less_than', 'alpha': 0.14182243253771004}, {'dimension': 14, 'threshold': 0.0, 'inequality_sign': 'greater_than', 'alpha': 0.10264268449708018}, {'dimension': 0, 'threshold': 1.0, 'inequality_sign': 'less_than', 'alpha': 0.11883732872109554}, {'dimension': 4, 'threshold': 19.2, 'inequality_sign': 'greater_than', 'alpha': 0.09879216527106725}, {'dimension': 2, 'threshold': 36.72, 'inequality_sign': 'less_than', 'alpha': 0.12029960885056902}, {'dimension': 3, 'threshold': 92.0, 'inequality_sign': 'less_than', 'alpha': 0.10846927663989149}, {'dimension': 15, 'threshold': 0.0, 'inequality_sign': 'less_than', 'alpha': 0.09652967982091365}, {'dimension': 3, 'threshold': 73.6, 'inequality_sign': 'greater_than', 'alpha': 0.08958515309272022}, {'dimension': 18, 'threshold': 8.9, 'inequality_sign': 'less_than', 'alpha': 0.0921036196127237}, {'dimension': 16, 'threshold': 4.0, 'inequality_sign': 'greater_than', 'alpha': 0.10464142217079568}, {'dimension': 11, 'threshold': 3.2, 'inequality_sign': 'less_than', 'alpha': 0.09575457291711578}, {'dimension': 20, 'threshold': 0.0, 'inequality_sign': 'greater_than', 'alpha': 0.09624217440331542}, {'dimension': 17, 'threshold': 37.5, 'inequality_sign': 'less_than', 'alpha': 0.07859662885189661}, {'dimension': 9, 'threshold': 2.0, 'inequality_sign': 'less_than', 'alpha': 0.07142863634550768}, {'dimension': 5, 'threshold': 2.0, 'inequality_sign': 'greater_than', 'alpha': 0.07830753154662261}, {'dimension': 4, 'threshold': 28.799999999999997, 'inequality_sign': 'less_than', 'alpha': 0.07606159074712755}, {'dimension': 4, 'threshold': 19.2, 'inequality_sign': 'greater_than', 'alpha': 0.08306752811081908}, {'dimension': 7, 'threshold': 4.2, 'inequality_sign': 'greater_than', 'alpha': 0.08304167411411778}, {'dimension': 3, 'threshold': 92.0, 'inequality_sign': 'less_than', 'alpha': 0.08893356802801176}, {'dimension': 14, 'threshold': 3.0, 'inequality_sign': 'greater_than', 'alpha': 0.07000509315417822}, {'dimension': 7, 'threshold': 5.3999999999999995, 'inequality_sign': 'less_than', 'alpha': 0.07697582358566012}, {'dimension': 18, 'threshold': 0.0, 'inequality_sign': 'less_than', 'alpha': 0.08507457442866745}, {'dimension': 5, 'threshold': 3.2, 'inequality_sign': 'less_than', 'alpha': 0.06765903873020729}, {'dimension': 7, 'threshold': 3.0, 'inequality_sign': 'greater_than', 'alpha': 0.08045680822237077}, {'dimension': 12, 'threshold': 1.2, 'inequality_sign': 'less_than', 'alpha': 0.05616862921969537}, {'dimension': 11, 'threshold': 2.0, 'inequality_sign': 'greater_than', 'alpha': 0.06454264376249834}, {'dimension': 7, 'threshold': 5.3999999999999995, 'inequality_sign': 'less_than', 'alpha': 0.053088884353829344}, {'dimension': 11, 'threshold': 0.0, 'inequality_sign': 'less_than', 'alpha': 0.07346058614788575}, {'dimension': 13, 'threshold': 0.0, 'inequality_sign': 'greater_than', 'alpha': 0.07872267320907471}]

error rate of training set: 19.732%
error rate of test set: 19.403%

单层 AdaBoost inequality_sign array threshold 人工智能

有关基于单层决策树的AdaBoost算法原理+python实现的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决