人工智能artificialintelligence第五章内容摘要:

够可利用的训练样本才能学习得到一个好的分类模型。 但是,在实际应用中发现要满足这两个条件往往是困难的。 迁移学习是运用已有的知识对不同但相关领域问题进行求解。 它放宽了传统机器学习中的两个基本假设,目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。 2020/11/17 史忠植 人工智能: 机器学习 43 内容提要 机器学习概述 归纳学习 类比学习 统计学习 强化学习 进化计算 群体智能 知识发现 小结 2020/11/17 史忠植 人工智能: 机器学习 44 统计学习 统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。 科学规律性的东西一般总是隐藏得比较深,最初总是从其数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,作进一步深入的理论研究。 当理论研究 提出一定的结论时,往往还需要在实践中加以验证。 就是说,观测一些自然现象或专门安排的实验所得资料,是否与理论相符、在多大的程度上相符、偏离可能是朝哪个方向等等问题,都需要用统计分析的方法处理。 列联表及列联表分析 • 研究两个属性变量之间是否有联系 • 研究步骤:  通过问卷调查或统计资料获得属性 变量的信息  整理问卷或统计资料获得列联表数据  通过统计假设检验 两个属性变量是 否具有独立性 2020/11/17 史忠植 人工智能: 机器学习 45 逻辑回归 基本理论和方 法 • 研究某一事件发生的概率 P=P(y=1)与若干因素之间的关系  qq xxp   110在 0和 1之间 任意范围之间的数量 若干个状态的标量 2020/11/17 史忠植 人工智能: 机器学习 46 逻辑回归 模型 • 人们通常把 p的某个函数 f(p)假设为变量的函数形式,取 • 称之为 logit函数,也叫逻辑变换。 • 因此,逻辑变换是取列联表中优势的对数。 当概率在 01取值时, Logit可以取任意实数,避免了线性概率模型的结构缺陷。 ()( ) l n l n1 ( ) 1xpfpxp2020/11/17 史忠植 人工智能: 机器学习 47 逻辑变换 • logistic变换 • Logistic回归模型 ),(1ln  ppqq xxpp   1101ln优势比 2020/11/17 史忠植 人工智能: 机器学习 48 概率 p的预测 • P与多因素之间的关系预测 qqqqxxxxeep  1101101)( 11011qq xxep   qq xxpp   1101ln2020/11/17 史忠植 人工智能: 机器学习 49 P与单因素之间的关系图 p x 1 xxeep10101 01 最可能成功范围 最不可能成功范围 2020/11/17 史忠植 人工智能: 机器学习 50 回归系数的含义 • 优势比 (Odds Ratio)— 事件发生与不发生的概率比 • 优势比与单变量系数之间的关系 • qq xxeppOR  1101),,(),1,( 2121 qiqi xxxxORexxxxOR i  优势比减小优势比增加00ii2020/11/17 史忠植 人工智能: 机器学习 51 支持向量机 • 支持向量机( support vector machine: SVM)是一种二类分类方法,它的基本模型是定义在特征空间上的间隔最大的线性分类器。 支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的。 它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 2020/11/17 史忠植 人工智能: 机器学习 52 统计学习问题 • 学习问题的表示 – 学习的目的就是,在联合概率分布函数 F(x,y)未知、所有可用的信息都包含在训练集中的情况下,寻找函数 f(x,w0),使它(在函数类 f(x,w), (w W)上最小化风险泛函 • 模式别别问题  ),()),(,()( yxdFwxfyLwRw)f ( x ,y1w)f ( x ,y ,0)),(,(,若若wxfyL2020/11/17 史忠植 人工智能: 机器学习 53 经验风险最小化原则 (ERM ) • 最小化经验风险 (训练样本错误率 ) Niiie m p wxfdLnwR1)),(,(1)(• 用 ERM准则代替期望风险最小化并没有经过充分的理论论证,只是直观上合理的想当然做法 • 这种思想却在多年的机器学习方法研究中占据了主要地位。 人们多年来将大部分注意力集中到如何更好地最小化经验风险上。 • 而实际上,即使可以假定当 n趋向于无穷大时经验风险也不一定趋近于期望风险,在很多问题中的样本数目也离无穷大相去甚远 ,如神经网络。 2020/11/17 史忠植 人工智能: 机器学习 54 学习机器实际风险的界 • 学习机器实际风险的界 – 其中 n样本数量, h是 VC维, Φ是递减函数 • 两种方法: – 神经网络 : 保持置信范围固定(通过选择一个适当构造的机器)并最小化经验风险。 – 支持向量机 (SVM): 保持经验风险固定(比如等于零)并最小化置信范围。 )()()(hnwRwRe m p 2020/11/17 史忠植 人工智能: 机器学习 55 结构风险最小化原则 • 函数集 Fk={F(x,w)。 w∈Wk}, k=1,2,…,n • F1 F2 … Fn • VC维: h1≤h2≤…≤hn • 在使保证风险(风险的上界)最小的子集中选择使经验风险最小的函数   2020/11/17 史忠植 人工智能: 机器学习 56 2020/11/17 史忠植 人工智能: 机器学习 57 Sn S* 经验风险 Empirical risk 置信范围 Confidence interval 风险界限 Bound on the risk h1 h* hn h S1 S* Sn 结构风险最小化归纳原则 (SRM) 最大间隔分类器 • 不但能将两类正确分开,而且使分类间隔最大。 • h≤min( [ R2A2] ,N)+1 H1 H2 H 2/| | w || 2020/11/17 史忠植 人工智能: 机器学习 58 2020/11/17 史忠植 人工智能: 机器学习 59 考虑 2维空间中极端直线之间的间隔情况 [ x ]1[ x ]2)1w x b  ()1w x b   (D21 bw21 bw2222 121 1bbDww wDw 2212D 求出两条极端直线的距离: 如何计算分划间隔。 特征空间与核函数 • Mercer定理:要保证 L2(C)下的对称函数 能以正的系数展开成 (即 描述了在某个特征空间中的一个积 ), 其中紧集 , 充分必要条件是,对使得 的所有 ,条件 成立。 RCCK :     1,kkkk vuavuK  vuK ,0g      0,   dudvvgugvuK   duug 2NRC 2020/11/17 史忠植 人工智能: 机器学习 60 特征空间与核函数 Mercer核 – 多项式核 – 高斯径向基函数核 – Sigmoid核 (只在部分参数值情况下才满足核函数的定义 ) 2020/11/17 史忠植 人工智能: 机器学习 61 2020/11/17 史忠植 人工智能: 机器学习 62 提升方法 • 弱学习机( weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测) 根据有云猜测可能会下雨 • 强学习机( strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert) 根据 CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测 • 弱学习机 强学习机 Boosting 2020/11/17 史忠植 人工智能: 机器学习 63 提升方法 • 过程 : – 在一定的权重条件下训练数据,得出分类法Ct – 根据 Ct的错误率调整权重 Set of weighted instances Classifier Ct train classifier adjust weights 2020/11/17 史忠植 人工智能: 机器学习 64 提升流程 (loop1) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 X1?1:1 弱假设 2020/11/17 史忠植 人工智能: 机器学习 65 提升流程 (loop2) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 Y3?1:1 弱假设 2020/11/17 史忠植 人工智能: 机器学习 66 提升流程 (loop3) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 Z7?1:。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。