关联规则挖掘在学生成绩管理中的应用毕业论文(编辑修改稿)内容摘要:
选题的依据和意义 关联规则挖掘首先是由 等人提出,用来发现购物篮数据事务中各项之间的有趣联系,并且提出了挖掘关联规则的 Apriori 算法。 [1]从此以后,对关联规则的理论、实现和应用问题的研究就更加广泛了。 理论上,大多数关联规则挖掘任务被分解为产生频繁项集和强规则两个子任务,而 频繁项集产生的计算开销远大于强规则的产生,所以提高频繁项集的产生效率关系着关联规则算法的总体性能。 [12]目前,已经研 究了很多提高算法效率的技术,目的主要是解决 Apriori 算法存在的不足。 例如, Park 等提出的 DHP 算法、 Savasere 等提出的划分算法、 Toivonen 提出的基于抽样的频繁项集产生算法和 Brin 等人提出的动态项集计数算法等。 另外, Han 等还提出了一种不同于以上 改进技术的growthFP 算法,它是一种不产生候选从而挖掘全部频繁项集的方法。 本文 在以上改进技术的基础上 提出了一种改进算法。 该算法利用 完美哈希函数,优化的事务压缩技术,分组查询计数和不利用剪枝直接产生候选 k 项集 2 等技术,一定程度上提高了挖掘频繁项集的效率。 对于两种算法,利用同一个实例,从理论和实验两个方面比较它们的性能,发现了改进算法的优越性。 目前关联规则挖掘已经应用到了各个领域,比如生物信息学、地球科学、文档分析、通信警告分析和 Web 挖掘等领域,同时也应用于分类、回归和聚类等其他学习问题。 但是在教育信息领域却需要更进一步的探索和研究,将数据挖掘技术应用于教育信息领域,从大量的教育信息数据中发现隐藏的、有用的知识,进而促进教育的改革和发展。 随着数据库技术的发展,国内很多学校在处理日益增长的数据时,都选择了教务管理系统,但仅限于将纸质信息输入到计算机中,计算机进行统计查询等日常管理工作,所以急需利用数据挖掘技术从这些数据中获取隐藏其中的规律或规则,从而帮助人们做出决策和研究。 目前,笔者所在学校淮北广播 电视大学正是利用教务管理系统进行学生信息的管理,可以处理学籍、成绩和考务等方面的数据。 以成绩管理模块为例,教务管理系统仅提供简单的数据查询和报表输出的功能,基本上没有智能分析的功能,因此需要在此系统的基础上添加智能分析的功能。 本文 应用 Apriori 改进算法,采用 20xx VB 作为系统开发工具, 200 0S e r ve r S Q LM ic r os of t 作为 数据库服务器设计 开发了一个简单的 数据挖掘系统用于挖掘学生成绩中的关联规则 ,以后再考虑添加其他模块。 通过挖 掘学生成绩,进一步证实了 Apriori 改进算法的有效性和可行性,也为教学管理人员优化课程设置提供了决策支持。 系统试运行后,优化的课程设置 使得教师的教学过程有了明显的改善,教学效果明显提高,学生的课程通过率有所上升。 本文的主要内容 本文从理论上研究了数据挖掘和关联规则挖掘,深入分析了 Apriori 算法,并在此基础上,提出了一种 Apriori 改进算法,最后将其应用于数据挖掘系统挖掘学生成绩数据。 本文的主要 内容如下: (1) 对数据挖掘和关联规则挖掘进行理论研究。 数据挖掘是知识发现过程不可或缺的一部份,而关联规则挖掘是数据挖掘中的重要研究领域。 因此,本文着重研究和探索了关联规则挖掘的过程,并详细介绍了频繁项集的产生技术。 (2) 研究分析了 Apriori 算法。 主要介绍了 Apriori 算法的基本思想,描述和分析了算法的核心,即通过连接和剪枝产生频繁项集,并简要介绍了关联规则的产生。 通过实例演示了 Apriori 算法产生 频繁项集的整个过程,分析了算法的特点和不足,同时介绍了现有的改进技术。 (3) Apriori 算法的改进设计。 基于 Apriori 算法的缺陷,改进算法 利用完美哈希函数,优化的事务压缩技术,分组查询计数和不利用剪枝直接产生候选 k 项集等技术,一定程度上提升了挖掘频繁项集的效率。 同时,通过理论和实验对 3 两种算法进行了产生频繁项集的时间效率比较,验证了改进算法的优越性。 (4) 学生成绩数据挖掘系统的设计与实现。 目前,教务管理系统中的学生成绩管理模块无法进行智能分析处理,所以利用 Apriori 改进算法开发一个简单的学生成绩数据挖掘系统用于挖掘学生成绩数据。 将挖掘结果提供给 教学管理人员进行课程合理设置,改善了教学过程和教学效果。 本文的组织结构 本文共分六个章节,以基本理论为基础,进行算法改进,并设计实现了数据挖掘系统应用于学生成绩管理。 本文的组织结构安排如下: 第一章 绪论。 先后介绍了论文研究的背景、选题的依据及意义以及本文的主要内容和组织结构。 第二章 数据挖掘技术。 先后 介绍了数据挖掘的起源、基本概念、任务、过程和方法以及研究的发展趋势。 第三章 关联规则挖掘技术。 主要介绍了关联规则的相关定义和性质,并形式化描述了关联规则的挖掘问题,包括频繁项集和强规则的产生。 然后详细介绍了产生频繁项集的相关技术,简要介绍了规则的产生技术。 最后,对于关联规则挖掘的方法做了简单介绍并提出研究方向。 第四章 Apriori 算法及其改进设计。 首先分析了经典的 Apriori 算法,包括算法的基本思想和核心,并通过实例分析了算法的特点和不足 ,同时介绍了现有的改进技术。 接着提出了一种改进的 Apriori 算法,并详细的介绍了改进算法的思路、描述和实例分析,总结出了改进算法的特点和不足。 最后,在性能和实验分析方面,对两种算法进行了算法效率比较。 第五章 Apriori 改进算法在学生成绩管理中的应用。 介绍了关联规则挖掘的基本流程,接着将关联规则挖掘应用于学生成绩管理。 首先进行了问题定义,数据准备,然后应用 Apriori 改进算法实现了一个简单的学生成绩数据挖掘 系统。 介绍了该系统获取数据,数据预处理,关联规则挖掘和规则结果分析四个模块的设计与实现,最后对系统挖掘结果进行了解释和评估。 第六章 本文的总结与展望。 对本文所做的工作进行总结,并对今后的工作提出了研究方向。 4 第二章 数据挖掘技术 目前,人们面临着这样一个巨大的挑战,那就是怎样从海量的数据中提取有用的信息,而这些信息来自于社会各个单位部门长年累月积累下来的数据。 日益收集和存储下来的数据各具特点,坚持用传统的数据分析工具和技术已解决不了问题, 而急需一种新的技术能够将处理海量数据的复杂算法融合到已有技术当中 ,而这种技术就是数据挖掘。 数据挖掘的起源 面临着来自商务管理、医学、分子生物学、科学与工程技术界等方面积累的大量数据,如何从中获取有价值的新发现,目前已成为不同学科的研究者迎接的一项新挑战。 数据挖掘恰恰提供了这样的机会,它可以更有效地处理不同的数据类型,无论是探查分析新的数据类型,还是利用新方法分析旧有的数据类型,都是建立在研究者先前使用的算法和方法学的基础上。 数据挖掘是信息产业最有前途的交叉学科,它将信息论、可视化、信息检索和进化计算等各个领域的思想融合其中,应用于模式识别、人工智能和机器学习 的建模技术和搜索算法等学习理论。 同时,数据挖掘在一些领域起到至关重要的作用,比如,需要数据库系统提供有效的存储、索引和查询处理支持的领域,利用分布式技术处理不能在一起集中处理的数据的领域等。 正是由于传统的数据分析技术在面临新的数据集带来的可伸缩性、高维性、异种数据和复杂数据、数据的所有权与分布以及非传统分析等方面的问题, 才有数据挖掘的出现。 数据挖掘的概念 数据挖掘 Mining) (Data 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。 [1]广义上,数据挖掘是在大量数据中挖掘有用信息的过程,但并非所有的信息发现过程都视为数据挖掘,比如,通过数据库管理系统 进行简单的查询、调用和即时遍历或通过 Inter 的搜索引擎查找网页等,这些信息检索的方式主要是依赖数据的显著特征来创建索引结构,只能是信息检索领域的工作。 知识发现 K D D )da t a ba s e ,in di s c ov e r y ( kn ow le dg e 是将未加工的数据转换为有用信息的整个过程,包括数据预处理 sing)(preproc es (包括特征选择、 维规约、 5 规范化、选择数据子集 )到数据挖掘,再到数据挖掘结果的后处理 ssing)(pos tpr oc e (包括模式过滤、可视化和模式表示 ),而数据挖掘只是其中的一个步骤,但却不可或缺。 [2] 数据挖掘的任务 预测和 描述 是数据挖掘的两大任务 , 前者根据其他属性的值来预测特定属性的值,而后者是导出概括数据中潜在联系的模式。 下面简单地介绍四种主要的数据挖掘任务 : (1) 预测建模 m ode ling) e( pr e di c t iv 预测建模通过说明变量函数的方式,决定目标变量属于哪种类别,如果预测的目 标变量是离散的,这种就归为分类;若预测的变量是连续的,这种就归为回归,但是相同的目标是使预测值与实际值之间的误差达到最小。 决策树、基于统计学的贝叶斯方法和神经网络方法 是预测建模的主要方法。 (2) 关联分析 a na lys is )on ( a s s oc iati 关联分析 是这样一种方法,它的目的是 发现数据中强关联特征的模式 ,从而得到有实用价值的信息。 [13]它主要应用于购物篮分析得到新的交叉销售商机,除此之外,还被应用于科学数据分析、生物信息学和医疗诊断等领域。 (3) 聚类分析 ana lys is)(c lus ter 俗话说 物以类聚,聚类用于发现数据库中紧密相关的数据并组成不同的组,使得同一簇中的数据相互之间尽可能的相似。 它 主要应用于对相关的顾客分组、压缩数据等。 (4) 异常检测 de te c tion)( a nom a ly 识别数据的特征明显不同于其他数据的观测值是 异常检测的目的,同时要避免标注正常的数据为异常点,这种检测手段经常被应用于避免网络被攻击、检测是否是欺诈行为和生态系统扰动等。 数据挖掘的过程 数据挖掘的过程大致可以用定义问题、 数据的准备 、 建模 和 解释、 评估结果来概括。 (1)定义问题。 主要是熟悉实际的业务背景情况,确定要挖掘什么和要得到什么结果。 在开始数据挖掘之前,需要弄清用户需求,明确挖掘对象和目标,从而为挖掘准备优质的数据,才能够正确的解释和评估结果,进而挖掘出有价值的信息。 (2)准备数据。 确定了要挖掘的对象, 还需要进行数据预处理。 原始数据必须加以处理才能提高数据的质量并且更好的适应特定的数据挖掘技术或工具,即数据预处理。 6 (3)建模即执行挖掘算法并建立模型。 在前两步的基础上,我们要选择 合适的 挖掘算法。 在选择时要考虑到用户的需求,是要得到 描述型而又容易理解的准确概要性的知识,还是要 满足预测率高的分类规则,却不在乎是否容易接受等 各种各样的 要求,所以 算法选的合不合适,关系到分析数据的结果是否满足要求。 (4) 解释和评估结果。 对挖掘得到的关联规则进行解释和评估,并将分析得到的有用知识应用到实际应用中,以便做出决策。 可见,数据挖掘的过程需要反复进行,使得挖掘出的信息不断接近问题的本质,从而做出更加正确的决策。 数据挖掘的方法 面对不同的数据挖掘任务,一种方法往往不能全部解决,而需要将多种方法相结合,取长补短。 常用 的 主要有以下几种: (1) 关联分析方法 关联分析方法主要用于发现隐 藏在大型数据集中的不同事件之间的有意义的关联性,即一个事件发生的同时,另一个事件也经常发生。 它的主要依据是事件发生的概率和条件概率应符合一定的统计意义,重点在于快速发现那些有实用价值的关联发生的事件。 通过关联分析所得到的结果,仅仅是一种可能的因果关系,它能够协助业务专家分析事物的本质,深化对事物关系的认识,但需要业务专家加以确认,并予以合理的解释,才能够成为对决策进行指导的规律。 挖掘频繁项集经常被使用的是 Apriori 算法和 growthFP 算法 , 其他还包括DHP 、 Partition 、 Sampling 、 DIC 等算法 以及 树投影算法和 MineH。 另外还有基于约束的关联规则算法,挖掘关联模式的并行算法 ,基于模式定秩、汇总和模式过滤方法以及主观度量在关联分析中的应用等。 (2) 分类分析方法 ① 有这样一种分类法, 在选择划分数据的属性时, 它采取一系列局部最优决策来构造决策树, 从而能够在合理的时间内构造出具有一定 准确率的次最优决策树。 决策树归纳算法主要有以下特点,它是一种构造分类模型的非参数方法,即使训练集非常大,也可以快速建立模型,对于噪声的干扰具有较好的鲁棒性等。 一些著名的决策树算法包括都采用熵度量作为划分函数的 ID3 和 算法以及使用 Gini 指标作为划分函数的 CART 算法,还有在决策树生长过程中使用 2χ 统计检验确定最佳的划分点的 CHAID 算法。 斜决策树和构造归纳方法 是用来提高决策树表达能力的。 除自顶向下方法外,其他生长决策树的策略还有自底向上的方法和双向的方法。 另外还有开发决策树归纳算法的并行和可伸缩算法,包括 Mehta 等的 SLIQ 、 Shafer 等的 SPRINT 等。 ② 基于规则分类器分类方法是从包含多个类的数据集中一次提取一个类 7 的规则,归纳。关联规则挖掘在学生成绩管理中的应用毕业论文(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。