机器学习系列19丨集成学习

2021-10-27 | 阅读：次

一.集成学习算法简介

1.什么是集成学习

集成学习通过建立几个模型来解决单一预测问题。

它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何一个单分类的做出预测。

2.机器学习的两个核心任务

20211027160943

3.集成学习中boosting和Bagging

20211027161047

只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的。

二.Bagging和随机森林

1.bagging集成过程

1.采样：从原有样本里面，采样一部分

2.学习：训练弱学习器

3.集成：使用平权投票

20211027161847

2.随机森林定义

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

随机森林 = Bagging + 决策树

3.随机森林流程

1.随机选取m条数据

2.随机选取k个特征

3.训练决策树

4.重复1-3

5.对上面的弱决策树进行平权投票

20211027165112

注意

1.随机选取样本，且是有放回的抽取

2.选取特征的时候，选择m«M，M是所有的特征数。

为什么要随机抽样训练集？　　

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的

为什么要有放回地抽样？

如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是“有偏的”，都是绝对“片面的”（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决。

4.随机森林api介绍

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)
- n_estimators：integer，optional（default = 10）森林里的树木数量120,200,300,500,800,1200
- Criterion：string，可选（default =“gini”）分割特征的测量方法
- max_depth：integer或None，可选（默认=无）树的最大深度 5,8,15,25,30
- max_features=”auto”,每个决策树的最大特征数量
  - If “auto”, then max_features=sqrt(n_features).
  - If “sqrt”, then max_features=sqrt(n_features)(same as “auto”).
  - If “log2”, then max_features=log2(n_features).
  - If None, then max_features=n_features.
- bootstrap：boolean，optional（default = True）是否在构建树时使用放回抽样
- min_samples_split:节点划分最少样本数
- min_samples_leaf:叶子节点的最小样本数
超参数：n_estimator, max_depth, min_samples_split,min_samples_leaf

5.预测案例

import pandas as pd
import numpy as np
# 数据集划分
from sklearn.model_selection import train_test_split, GridSearchCV
# 特征工程-字典特征提取
from sklearn.feature_extraction import dict_vectorizer
# 机器学习(随机森林和交叉验证、网格搜索)
from sklearn.ensemble import RandomForestClassifier

# 1.获取数据
titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

# 2.数据基本处理
# 2.1 确定特征值,目标值
x = titan[["pclass", "age", "sex"]]
y = titan["survived"]
# 2.2 缺失值处理
# 缺失值需要处理，将特征当中有类别的这些特征进行字典特征抽取
x['age'].fillna(x['age'].mean(), inplace=True)
# 2.3 数据集划分
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)

# 3.特征工程(字典特征抽取)
# 特征中出现类别符号，需要进行one-hot编码处理(DictVectorizer)
# x.to_dict(orient="records") 需要将数组特征转换成字典数据
transfer = dict_vectorizer(sparse=False)

x_train = transfer.fit_transform(x_train.to_dict(orient="records"))
x_test = transfer.fit_transform(x_test.to_dict(orient="records"))

# 4.机器学习（模型训练）
# 实例化随机森林
estimator = RandomForestClassifier()
# 定义超参数的选择列表
param_grid = {"n_estimators": [120, 200, 300, 500, 800, 1200], "max_depth": [5, 8, 15, 25, 30]}
# 网格搜索
estimator = GridSearchCV(estimator, param_grid=param_grid, cv=5)

estimator.fit(x_train, y_train)

# 5.模型评估
# 预测值
y_pre = estimator.score(x_test, y_test)
print(y_pre)
# 最好的模型
ret = estimator.best_estimator_
print(ret)

6.bagging集成优点

Bagging + 决策树/线性回归/逻辑回归/深度学习… = bagging集成学习方法

1.均可在原有算法上提高约2%左右的泛化正确率

2.简单, 方便, 通用

三.Boosting

1.什么是Boosting

随着学习的积累从弱到强。简而言之，每新加入一个弱学习器，整体能力就会得到提升

代表算法：Adaboost，GBDT，XGBoost

2.实现过程

20211027174406

20211027174518

20211027174546

3.bagging集成与boosting集成的区别：

1.数据方面

Bagging：对数据进行采样训练；

Boosting：根据前一轮学习结果调整数据的重要性。

2.投票方面

Bagging：所有学习器平权投票；

Boosting：对学习器进行加权投票。

3.学习顺序

Bagging的学习是并行的，每个学习器没有依赖关系；

Boosting学习是串行，学习有先后顺序。

4.主要作用

Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差）

Boosting主要用于提高训练精度 （解决欠拟合，也可以说降低偏差）

4.Adaboost的api介绍

from sklearn.ensemble import AdaBoostClassifier

Link:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html#sklearn.ensemble.AdaBoostClassifier

5.GBDT介绍

梯度提升决策树(GBDT Gradient Boosting Decision Tree) 是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。

它在被提出之初就被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

GBDT = 梯度下降 + Boosting + 决策树

主要执行思想：

1.使用梯度下降法优化代价函数；

2.使用一层决策树作为弱学习器，负梯度作为目标值；

3.利用boosting思想进行集成。

6.XGBoost

XGBoost = 二阶泰勒展开+boosting+决策树+正则化

XGBoost原理：

Boosting： XGBoost使用Boosting提升思想对多个弱学习器进行迭代式学习

二阶泰勒展开： 每一轮学习中，XGBoost对损失函数进行二阶泰勒展开，使用一阶和二阶梯度进行优化。

20211028154426

泰勒展开越多，计算结果越精确

决策树： 在每一轮学习中，XGBoost使用决策树算法作为弱学习进行优化。

正则化： 在优化过程中XGBoost为防止过拟合，在损失函数中加入惩罚项，限制决策树的叶子节点个数以及决策树叶子节点的值。

Dylan

Kang Yaoming