决策树分类算法在教学分析中的应用毕业论文(编辑修改稿)内容摘要:
事件更令人关注。 ( 5) 演变分析 安徽新华学院 2020 届本科毕业论文(设计) 9 数据演变分析描述行为随时间变化的对象的规律,并对其进行建模。 尽管这可能包括时间相关数据的区分 、特征化、关联和相关分析、预测、分类或聚类,这类分析的不同特点包括序列或周期模式匹配、时间序列数据分析和基于相似性的数据分析。 本章小结 本章在介绍数据挖掘基本概念的基础上,简要的概括了数据挖掘的过程、数据挖掘的方法、数据挖掘的功能,并简要介绍了几个数据挖掘应用的成功案例。 这些基本理论知识为数据挖掘的实践应用研究奠定了理论基础。 安徽新华学院 2020 届本科毕业论文(设计) 10 3 决策树技术 决策树简介 随着社会的发展,数据挖掘显的尤为的重要。 在数据挖掘中决策树算法是目前数据挖掘领域中应用的最广泛、最流行的推理算法之一。 决策树分类算法是将数 据分类、预测和规格的提取。 随着 ID3 算法和 算法的提出,决策树技术在数据挖掘领域得到了进一步的拓展,并且在人们生产生活中得到了广泛应用。 决策树是 一种根据自变量的值进行递归划分以及预测因变量的方法 [10]。 决策树的主要作用是揭示数据中的结构化信息。 它提供一种在什么条件下会得到什么值的类似规则的方法。 若因变量为分类变量,我们称相应的 决策树为分类树 ;若因变量为连续变量,我们称相应的决策树为 回归树。 分类树对离散变量做决策树 ,回归树 对连续变量做决策树。 一般的数据挖掘工具,允许选择分裂条件和修剪规则,以 及控制 参数(最小结点的大小, 最大树的深度等等),来限制决策树的。 决策树作为一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试 ,该测试 将数据集合空间分割成两个或更多块。 每个叶节点是属于 一类别的记录。 图 为以典型的决策树。 安徽新华学院 2020 届本科毕业论文(设计) 11 图 决策树 决策树的主要算法 近年来,决策树方法在很多机器学习、知识的探究等过程中得到了广泛的应用。 迄今为止,国内外研究人员先后提出了十几种决策树的分类方法,因此决策树的算法还是挺多的,本文介绍了两种比较经典的决策树算法,分别是 ID3 算法和 算法。 ID3 算法 ID3(induction decisiontree)算法,它是一种用来由数据构造决策树的递归过程,是在 1986 年由 Quinlan 首先提出的,该算法以信息论为基础,信息论是数学中的概率论和数理统计的一个分支,用于处理信息和信息熵、通信系统、数据传输和率失真理论、密码学、信噪比、数据压缩和相关课题。 以信息熵和信息增益度为衡量标准,从而实现数据的归纳分类,它是一个从上到下、分而治之 的归纳过程 [12]。 ID3 算法的大概过程是:我们试探性的选择一个属性放置在 根节点,并对该属性的每个值产生一个分支。 这样,分裂根节点上的数据集,并一道子女节点,产生一个局部的树。 在决策树各级结点上选择属性时,通过计算信息增益来选择属性,以使得在每一个非叶结点进行测试时,能获得关于被测试记录的最大的类别信息。 其具体方法是:我们需要检测所有的属性,在它们中间选择信息增益最大的属性作为决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有的子集仅包含同一类别的数据为止。 最后得到的一棵决策树,它可以用来对新的样本进行分类。 要想了解 ID3算法, 我们要了解 ID3 算法中的一些基本概念: ( 1)熵 熵是一个物理名词,源于热力学的概念,数值为温度除热量所得的值。 1948年 Shannon 提出并发展了信息论并引入了信息熵。 一个训练集合 S根据类别属性的值被分成 m 个互相独立的类 C C ..、 Cn,则识别 S的一个元组所属哪个类所需的信息量为 Info( S)。 安徽新华学院 2020 届本科毕业论文(设计) 12 Info( S) = -1niPilog2( Pi)=- P○+ log2 P○+ P○- log2 P○- 上述公式中, p+代表正样例,而 p则代表反样例。 ( 2)信息增益度 信息增益度是两个信息量之间的差值, 已经有了熵作为衡量训练样例集合纯度的标准,现在可以定义属性分类训练数据的效力的度量标准。 这个标准被称为 “ 信息增益( information gain)”。 简单的说,一个属性的信息增益就是由于使用这个属性分割样例而导致的期望熵降低 (或者说,样本按照某属性划分时造成熵减少的期望 )。 更精确地讲,一个属性 A 相对样例集合 S的信息增益Gain(S,A)被定义为: G( S,A) =Info( S) Info( A) 最后根据信 息增益最大的原则选择根节点来构成决策树。 算法 是机器学习算法中的另一个分类决策树算法,它是基于 ID3 算法进行改进后的一种重要算法,相比于 ID3 算法,改进有如下几个要点: 用信息增益率来选择属性。 ID3 选择属性用的是子树的信息增益,这里以用很多方法来定义信息, ID3 使用的是熵( entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而 用的是信息增益率。 在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过适应( Overfitting) ,如果不考虑这些结点可能会更好。 对非离散数据也能处理。 能够对不完整数据进行处理 由于 ID3算法在实际应用中的一些局限, Quinlan再次改进了 ID3算法。 算法是 ID3 算法的改进版本, 算法可以处理多种数据类型。 此外, 的效率相比于 ID3 算法也有了很多的提高。 通过对 ID3 算法的介绍我们已经了解熵,和信息增益。 在 算法中我们引入了新的概念信息增益率。 算法的具体步骤如下: ( 1)计算集合 D的熵; 安徽新华学院 2020 届本科毕业论文(设计) 13 ( 2)计算各个属性的信息熵; ( 3)计算信息增益; ( 4)计算分裂信息度量; ( 5)计算信息增益率; ( 6) 选择增益率最大的作为根节点; (7)建立决策树; 本文以一个典型被引用多很多次的数据训练集 D 为例,来说明 算法如何计算信息节点并切选择决策树结点。 如图 : 天气 温度 湿度 风速 活动 晴 炎热 高 弱 取消 晴 炎热 高 强 取消 阴 炎热 高 弱 进行 雨 适中 高 弱 进行 雨 寒冷 正常 弱 进行 雨 寒冷 正常 强 取消 阴 寒冷 正常 强 进行 晴 适中 高 弱 取消 晴 寒冷 正常 弱 进行 雨 适中 正常 弱 进行 晴 适中 正常 强 进行 阴 适中 高 强 进行 阴 炎热 正常 弱 进行 雨 适中 高 强 取消 图 根据图 我们可以看出上面的训练集有 4 个属性: {天气,温度,湿度,风速 },而类标签有 2个,即类标签集合 C={Yes, No},分别表示适合户外运动和不适合户外运动。 根据前面的介绍,我们来计算信息熵,信息增益,以及信息增益率。 安徽新华学院 2020 届本科毕业论文(设计) 14 数据 D中一共用 14 个训练样本,其中 9个为正样例, 5个位反样例。 因此它的信息熵为: Info( D) =9/14*log2( 9/14) 5/14log2( 5/14) = 下面计算属性集合中每个属性的信息熵: 1: Info(天气 ) = 5/14 * [ 2/5 * log2(2/5) – 3/5 * log2(3/5)] + 4/14 * [ 4/4 * log2(4/4) 0/4 * log2(0/4)] + 5/14 * [ 3/5 * log2(3/5) – 2/5 * log2(2/5)] = 2: Info(温度 ) = 4/14 * [ 2/4 * log2(2/4) – 2/4 * log2(2/4)] + 6/14 * [ 4/6 * log2(4/6) 2/6 * log2(2/6)] + 4/14 * [ 3/4 * log2(3/4) – 1/4 * log2(1/4)] = 3: Info(湿度 = 7/14 * [ 3/7 * log2(3/7) – 4/7 * log2(4/7)] + 7/14 * [ 6/7 * log2(6/7) 1/7 * log2(1/7)] = 4: Info(风速 ) = 6/14 * [ 3/6 * log2(3/6) – 3/6 * log2(3/6)] + 8/14 * [ 6/8 * log2(6/8) 2/8 * log2(2/8)] = 根据上面的数据我们可以计算出信息增益: 1: Gain(天气 ) = Info(D) Info(天气 ) = = 2: Gain(温度 ) = Info(D) Info(温度 ) = = 3: Gain(湿度 ) = Info(D) Info(湿度 ) = = 4: Gain(风速 ) = Info(D) Info(风速 ) = = 接 下来,我们计算分裂信息度量 H(V): 天气 属性 属性 天气 有 3个取值,其中 晴 有 5 个样本、 雨 有 5个样本、 阴 有 4个样本,则 H(天气 ) = 5/14 * log2(5/14) 5/14 * log2(5/14) 4/14 * log2(4/14) = 温度 属性 属性 温度 有 3个取值,其中 热 有 4 个样本、 适中 有 6 个样本、 寒冷 有 4个样本,则 H(温度 ) = 4/14 * log2(4/14) 6/14 * log2(6/14) 4/14 * log2(4/14) = 安徽新华学院 2020 届本科毕业论文(设计) 15 湿度 属性 属性 湿度 有 2个取值,其中 高 有 7 个样本、 正常 有 7 个样本,则 H(HUMIDITY) = 7/14 * log2(7/14) 7/14 * log2(7/14) = 风速 属性 属性 风速 有 2个取值,其中 强 有 6 个样本、 弱 有 8个样本,则 H(风速 ) = 6/14 * log2(6/14) 8/14 * log2(8/14) = 根据上面计算结果,我们可以计算信息增益率,如下所示: IGR(A)=Gain(A)/H(A) IGR(天气 ) = Gain(天气 ) / H(天气 ) = IGR(温 度 ) = Gain(温 度 ) / H(温 度 ) = / = IGR(湿 度 ) = Gain(湿 度 ) / H(湿 度 ) = IGR(风速 ) = Gain(风速 ) / H(风速 ) = 根据计算得到的信息增益率进行选择属性集中的属性作为决策树结点,对该结点进行分裂。 决策树剪枝 决策树主要是基于 ID3 算法实现的决策树生成。 ID3 算 法的基本思想是贪心算法,采用自上而下的分而治之的方法构造决策树。 首先检测训练数据集的所有特征,选择信息增益最大的特征 A 建立决策树根节点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以在用于对数据进行分割。 ID3 算法总是选择具有最高信息增益 (或最大熵压缩 )的属性作为当前结点的测试属性。 该属性使得结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。 这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,并尽量确保一棵简单的 (但不必是最简单的 )树来刻画相关的信息。 在 ID3 算法中,计算信息增益时,由于信息增益存在一个内在偏置,它偏袒安徽新华学院。决策树分类算法在教学分析中的应用毕业论文(编辑修改稿)
相关推荐
盖度 95%。 中部黄河灌区以农田防护林为主,主栽树种有新疆杨、白蜡、臭椿,森林覆盖率 13%。 3 . 2 社会经济条件 3 . 2 . 1 面积、人口及其结构 总土地面积 1088 平方公里,其中林业用地 万亩。 总人口 万人,其中农业人口 万,非农业人口 万。 3 . 2 . 2 工农业生产情况,人均产值、收入 农业生产主要以小麦、玉 米、油料、脱水蔬菜、无公害枸杞种植和畜禽养殖业为主
加快完善城乡发展一体化体制机制,着力在城乡规划、基础设施、公共服务等方面推进一体化 ,促进城乡要素平等交换和公共资源均衡配置,形成以工促农、以城带乡、工农互惠、城乡一体的新型工农、城乡关系。 (五)全面提高开放型经济水平。 适应经济全球化新形势,必须实行更加积极主动的开放战略,完善互利共赢、多元平衡、安全高效的开放型经济体系。 要加快转变 对外经济发展方式,推动开放朝着优化结构、拓展深度
4 理总局令 〔 2020〕第 30 号) 11) 《建设项目安全设施“三同时”监督管理暂行办法》(国家安全生产监督管理总局〔 2020〕令第 36 号) 12) 《国家安全监管总局办公厅关于实施 特种作业人员安全技术培训考核管理规定 有关问题的通知》(安监总厅培训〔 2020〕 179 号) 13) 《 危险化学品重大危险源监督管理暂行规定 》 (国家安全生产监督管理总局令 〔 2020〕 第
历了 三个阶段 : 第一阶段 是改革开放后至 1999 年的自发摸索 的 阶段。 这一阶段 主要是由分布在广大农村地区的农村信 用社面向社员,探索开展以第三方保证为主、信用为辅的小额贷款业务。 [1] 数据来源于江西农村信用社网站统计数据 , 农村小额信贷存在的问题及对策毕业论文 6 第二阶段是 是 1999 年至 2020 年的试点推广阶段。 这一阶段 主要是作为当时监管部门的人民银行 有
指标 编号 检测项目 检测方法 所需检测仪器 前处理设备(附件) 所需试剂 靛蓝分光光度法 分光光度计 100mL 容量瓶 三磺酸钾靛蓝,磷酸,磷酸二氢钠,丙二醇 ,氨基乙酸 42 二氧化氯( ClO2 ,mg/L) N,N二乙基对苯二胺硫酸亚铁铵滴定法 滴定装置 无 重铬酸钾,二苯胺磺酸钡,硫酸亚铁铵,硫酸, N,N二乙基对苯二胺草酸盐或 N,N二乙基对苯二胺五水硫酸盐或 N
秆物理、化学和生物处理方法研究进展〔 J〕 .郑州牧业工程高等专科学校学报 2020( 2) . [9] 张吉鹤,王建华,程建波 .浅析提高饲料秸秆饲用价值的方法及其研究进展〔 J〕 .饲料与畜牧,2020, ( 1): 1415. [10] 张英来 .青贮酶制剂 .中国奶牛 ,2020,(6):2728. [11] 刘晓牧 .白腐真菌与秸秆饲料的有效利用 .饲料研究 ,2020, (1)