模型 | 概念 | model (X → Y 的映射关系) 假设空间:决策函数的集合 F = {f|Y=f(X)} | 策略(从假设空间中选取最优的model) 损失函数:一次预测的好坏 风险函数:平均意义下的好坏 | 计算方法(计算求解最佳参数) eg. 梯度下降 | |||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
线性 回归 | 线性回归是监督学习方法之一,可以用来解决分类和回归问题。 它假设变量和预测目标之间存在线性关系。学习目标是求解线性函数中的各个参数 假设:Y服从高斯分布 | y = p0 + p1*x11 + p2*x12 + ... +pk*x1k + 误差 | 找到以上任意指标的最小值 | 梯度下降求解w1, w2, w3 最小二乘法 机器学习--线性回归算法的原理及优缺点 - 泰初 - 博客园 | |||||||||||||||||||||||||||||||||||||||
逻辑 回归 | 逻辑回归是用于二分类的监督算法。它通过Logistic/Sigmoid 函数来对样本属于类1的概率进行建模。 训练时期,目标在于确定Sigmoid函数中的参数。 预测时,对于一个新的x, 如果逻辑函数给出的概率值大于某个阈值(比如0.5),则认为x属于类1 Y服从伯努利分布(丢偏心硬币) 优点:
缺点: 不能使用交叉特征,表达能力弱,信息损失多,甚至出现“辛普森悖论 辛普森悖论:在对样本集合进行分组研究时,在分组比较中占优势的一方,在汇总实验中反而是劣势的一方 | 为何逻辑回归选择交叉熵函数作为损失函数,而不是MSE?
| 交叉熵函数 用极大似然估计构建出损失函数 1.交叉熵函数与最大似然函数的联系和区别? 区别:交叉熵函数使用来描述模型预测值和真实值的差距大小,越大代表越不相近;似然函数的本质就是衡量在某个参数下,整体的估计和真实的情况一样的概率,越大代表越相近。 联系:交叉熵函数可以由最大似然函数在伯努利分布的条件下推导出来,或者说最小化交叉熵函数的本质就是对数似然函数的最大化。 | ||||||||||||||||||||||||||||||||||||||||
K近邻 方法 | 定义:k近邻法是监督学习,分类和回归 基本做法: 分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决方式进行预测。 | 没有显示的函数表达式,对应着训练数据集对特征空间的划分 确定了k, 距离,分类决策 等三要素,也就确定了模型 | k : 交叉验证实现 (k越大,模型越简单) 距离: 分类决策规则:多数表决(对应于经验风险最小化) | 通过kd树来快速搜索k个最近邻点 | |||||||||||||||||||||||||||||||||||||||
朴素 贝叶 斯法 | 朴素贝叶斯是监督学习中的分类方法 训练过程中,首先基于特征条件独立假设学习输入输出的联合概率分布 P(X,Y) = P(X)P(X|Y) 然后基于此模型,在预测阶段,对给定的输入x,利用贝叶斯定理求出后验概率P(Y|X)最大的类y 优点:高效且易于实现 缺点:分类性能不一定高 | 模型:P(X,Y) 训练阶段: 预测阶段: 预测目标:求得值最大的P(Y|X) P(Y|X) = P(X,Y)/P(X) 推断出 P(X,Y) 所以,预测目标是求得值最大的P(X,Y), 而 | 将输入x分到后验概率最大的类y 后验概率最大等价于0-1损失函数时的期望风险最小化 | 极大似然估计作为概率估计方法 | |||||||||||||||||||||||||||||||||||||||
决策树 | 监督学习,分类+回归 决策树是用于一种用于分类和回归的监督性方法。它基于特征对实例进行分类,并且最终生成一个树形结构。 训练的过程中,从根节点开始,通过某些准则来选取局部最优的特征,将训练集进行分割,使得分割后的子集有最好的分类,以此递归地生成决策树。树中的叶子节点对应于训练集的子集,对应于特定的输出值Y。回归问题中,Y是这个叶子节点中所有实例的均值,分类问题中,Y是叶子节点里大部分实例所属的类。 预测过程中,对于新来的实例,从根节点开始,根据树中得节点对应得条件,最后会分配到一个叶子节点,以该叶子节点对应的Y作为该新实例的预测值 目标:构建一个和训练数据拟合好并且复杂度小的决策树 优点:可读性好,分类速度快 | 连续型特征处理 假设训练样本集合D中有n个样本,考察对连续属性a的最佳划分点。 选择过程 条件概率模型 P(Y|X) X: 表示特征的随机变量 Y:表示类的随机变量 各叶子节点上的条件概率通常偏向某一类,决策树分类时将该节点的实例强行分到条件概率大的一类去
| 损失函数:正则化的极大似然函数 策略:以损失函数为目标函数的最小化er f r 第一项:所有叶节点熵之和(熵越小,每个节点的纯度越高,分类的确定性越高),训练数据的预测误差 第二项:正则项,避免叶子节点过多,树的结构太复杂而导致的过拟合 树的生成:局部最优 树的剪枝:全局最优 | ||||||||||||||||||||||||||||||||||||||||
随机 森林 | 随机森林是一种用于分类和回归的监督性方法。 随机构建多棵决策树,预测阶段,对于输入x,回归问题中,Y是所有决策树的均值,分类问题中,Y是大部分决策树所属的类。 优点: 1.随机性的引入,不容易过拟合 2.能够处理很高维度(feature很多)的数据,并且不用做特征选择(因为每一步的分割,特征子集都是随机选取的), 3.对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。(因为树的构建是一个不断寻找最佳分裂点的过程,没用使用梯度下降。同时对数值进行缩放并不会影响分裂点的位置) (梯度下降中,归一化后的数据,所有的特征量纲都有相同的轴,特征空间就编程一个圆,提高收敛速度。) 4.训练速度快,还可以得到重要性排序 | 随机性体现在: 1. 样本采样:bagging每次有放回的随机选择N个样本(每次随机选择一个样本,然后返回继续选择)。 这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。 2. 特征采样:每个节点分裂的时候,随机从全量属性中抽取出m个, 然后从这m个属性中采用信息增益等方式来选择一个属性作为节点的分裂属性 调参方向: sklearn.ensemble.RandomForestClassifier — scikit-learn 1.0.2 documentation max_depth = 10, num_tree = 200, max_depth = 15
| 多数表决法 | ||||||||||||||||||||||||||||||||||||||||
Ada Boost | 是一种提升方法,目的是把简单易学但是正确率低的弱提升算法提升为准确率高的强提升算法。 用于分类 学习方式: 1.通过迭代每次学习一个基本分类器。每次迭代中,都改变训练数据的权值/概率分布,提高那些被前一轮弱分类器错误分类样本的权值,降低被正确分类样本的权值 2.将弱分类器组合成强分类器:加权多数表决,加大分类误差率小的弱分类器的权重,减小分类误差大的弱分类器的权重。 | ||||||||||||||||||||||||||||||||||||||||||
gbdt | gbdt是一种用于分类和回归的监督性方法。 它是以CART为基本分类器的提升方法。 他通过迭代学习一系列的树,回归问题中,每次迭代生成的树学的是之前所有树结论和残差,最后返回所有树的集合。 比如A的真实年龄是18岁,但第一棵树的预测年龄是12岁,差了6岁,即残差为6岁。那么在第二棵树里我们把A的年龄设为6岁去学习,如果第二棵树真的能把A分到6岁的叶子节点,那累加两棵树的结论就是A的真实年龄;如果第二棵树的结论是5岁,则A仍然存在1岁的残差,第三棵树里A的年龄就变成1岁,继续学习。 | 提升树的模型:决策树的加法模型 T:决策树 sigma_m: 第m颗决策树的参数 M:树的个数 一共训练M轮,每轮产生一个弱分类器 T | 回归问题:MSE 分类问题:指数损失函数 L(Y| f(X)) = exp[-yf(x)] | 前向分布算法: 从前向后,每一步都只学习一个基函数及其系数,也就是每次都只优化当前的损失函数。 | |||||||||||||||||||||||||||||||||||||||
xg- boost |
| xgboost 参数
|
更多推荐
有监督学习模型总结
发布评论