厦门大学数据挖掘概述(编辑修改稿)内容摘要:

,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 .  它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科 . 2020/9/15 这个定义包括好几层含义 :  数据源必须是真实的、大量的、含噪声的;  发现的是用户感兴趣的知识;  发现的知识要可接受、可理解、可运用;  这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值 . 2020/9/15 什么是知识呢 ?  从广义上理解,数据、信息是知识的表现形式,但是人们更把 概念、规则、模式、规律和约束等看作知识 .  人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样 .  原始数据可以是 结构化的 ,如关系数据库中的数据;也可以是 半结构化的 ,如文本、图形和图像数据;甚至是分布在网络上的异构型数据 .  发现知识的方法可以是 数学的, 也可以 是非数学的; 可以是 演绎的, 也可以是 归纳的 . 发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护 . 2020/9/15 167。 数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术 . 其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识,即从一个数据库中自动发现相关商业模式 . 实际上多年来,统计学家就开始手工挖掘数据库,从数据库中寻找符合统计学规律的有意义的模式 .这也是统计学类型的数据挖掘技术,是目前数据挖掘技术中最为成熟的重要原因之一 . 2020/9/15 数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法 . 2020/9/15 167。 数据挖掘与知识发现 ( DM amp。 KDD) 167。 知识发现 (Knowledge Discovery in Database)过程 知识发现过程可以粗略的理解为三部曲: 数据准备 (data preparation) 数据挖掘 (data mining) 结果的解释评估 (interpretation and evaluation) 2020/9/15 知识发现过程示意图 2020/9/15  数据准备又可分为三个子步骤 : 数据选取、数据预处理和数据变换 .  数据选取 的目的是确定发现任务的操作对象,即目标数据 .  数据预处理 一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等 .  数据变换 的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量数 . 2020/9/15  数据挖掘阶段 主要是确定开采的任务,如 数据总结、分类、聚类、关联规则发现或序列模式发现等 .  确定了开采任务后,就要决定使用什么样的开采算法 . 选择实现算法有两个需要考虑的因素: 一是不同的数据有不同的特点,需要用与之相应的算法来开采; 二是根据用户或实际运行系统的要求来开采 . 2020/9/15  结果解释和评价 主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除 .如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前 .  最终结果是要面向用户,有时要对发现的模式进行可视化,或着将结果转化为用户易懂的另一种形式 . 2020/9/15 167。 数据挖掘的地位 KDD是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序 . 数据挖掘主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从数据中发现有关的知识,即隐藏的模式 . 数据挖掘是 KDD中最重要的一步,在 KDD的全过程中起到了至关重要的作用 . 因此,人们往往不加区别地使用数据挖掘和 KDD. 2020/9/15 167。 数据挖掘对象 数据挖掘的范围非常广泛, 可以是社会科学、经济学、商业数据、科学处理产生的数据和卫星观测得到的数据 .它们的数据结构也各不相同,可以是层次的、网状的、关系的和面向对象的数据 . 2020/9/15 167。 关系数据库  关系数据库是表的集合,每个表都赋予一个唯一的名字。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。