数据挖掘绪论浅谈数据挖掘(编辑修改稿)内容摘要:

ration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems 数据库管理员 OLAP 商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。 一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。 数据挖掘:多种学科的交叉 39 Data Mining Database Technology Statistics Machine Learning Pattern Recognition Algorithm Other Disciplines Visualization 2020/9/15 2020/9/15 40 对何种数据进行挖掘。  关系数据库( Relational database)、数据仓库( data warehouse)、事务数据库( transactional database)  高级数据库和面向特殊应用的数据库  数据流和遥感数据  时间序列数据、时间数据、序列数据(生物序列数据)  结构数据、图、网络和多维链数据  对象 关系数据库( Objectrelational databases)  异种数据库和遗产数据库  空间数据和时空数据  多媒体数据库、文本数据、 WWW 关系数据库是表的集合,每个表都赋予一个唯一的名字。 事务数据库由一个文件组成,其中每个记录代表一个事务。 数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通过数据清理、变换、集成等来构造。 41 关系数据库 2020/9/15 关系数据库是表的集合,每个表都赋予一个唯一的名字。 事务数据库 2020/9/15 42 ID 事务数据库由一个文件组成,其中每个记录代表一个事务。 数据仓库 2020/9/15 43 以面向主题的原则,以个人信用卡消费趋势为主题的星形模式数据仓库。 事实表 维表 数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通过数据清理、变换、集成等来构造。 Data Mining处理流程 44 DATA MINING 运行时间 定义企业问题 定义分析资料 数据预处理 数据挖掘 模型的评估 布署与应用 数据 源 DATA MINING 处理流程 2020/9/15 OLAP与数据挖掘  联机分析处理 OLAP(OnLine Analytical Processing)是使使用者从多种角度对从原始数据中转化出来的、易理解并真实反映企业特性的信息进行存取,以满足决策支持或多维环境特定的查询和报表需求的一种软件技术。  OLAP除了能够告诉你数据库中都有什么,还能够更进一步告诉你下一步会怎么样以及如果采取这样的措施又会怎么样。  其分析过程在本质上是一个基于用户建立的一系列假设驱动,通过 OLAP来证实或者推翻这些假设的演绎推理过程。 2020/9/15 45 实质上是通过把一个实体的多项重要的属性定义为多个维 (dimension),使用户能对不同维上的数据进行比较。 因此 OLAP也可以说是多维数据分析工具的集合。 旋转、切片(块)、钻取 钻取:是改变维的层次,变换分析的粒度。 它包括向下钻取( Drilldown)和向上钻取( Drillup) /上卷 (Rollup)。 Drillup是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而 Drilldown则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。 如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。  比如:一个 OLAP分析师可能认为,在某一区域开办信用卡的用户会更主动地进行消费。  对于这个假定,他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。 如果结果还不够明显,他也许要将年龄因素考虑进去。 一直这样下去,直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量,然后再根据这些变量,策划他的银行产品的营销方式,最大程度上将营销资源放在最可能接受他们产品的客户对象上。 2020/9/15 46  比如,在银行间盛行的 CRM的应用中,数据仓库以面向“客户”为主题进行数据筛选、存储;OLAP负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等,以动态分析报表、直方图、折线图、饼图等形式展现给管理者,让他们从多方面了解和掌握客户的动态,从而发现客户的交易习性、客户流失形式,更好地针对不同类型的客户,在不同时期进行适应性产品的营销活动。  数据挖掘则可以通过历史数据建立模型,在拟合历史的基础上,分析未来趋势,判断哪些因素的改变将很可能意味着客户的最终流失,进而避免其发生。 2020/9/15 47 OLAP与数据挖掘的区别 数据挖掘的功能  关联分析  分类和预测  聚类  异常值探测  序列模式挖掘 48 2020/9/15  关联分析是用于挖掘、发现大量数据中项集之间存在的、重要的、有趣的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。  在不知道关联函数或关联函数不确定的情况下,为了反映所发现规则的有用性和确定性,关联分析生成的规则都要满足 最小支持度阀值和最小臵信度阀值。 49 关联分析 2020/9/15 关联分析的应用:  比 如 人 寿 保 险。 保 险 公 司 在 接 受 保 险 前, 往 往 需 要 记 录 投 保 人 详 尽 的 信 息, 有 时 还 要 到 医 院 做 身 体 检 查。 保 单 上 记 录 有 投 保 人 的 年 龄、 性 别、 健 康 状 况、 工 作 单 位、 工 作 地 址、 工 资 水 平 等。  通 过 分 析 这 些 数 据, 可 以 得 到 类 似 以 下 这 样 的 关 联 规 则: 年 龄 在 40 岁 以 上, 工 作 在 A 区 的 投 保 人 当 中, 有 45 % 的 人 曾 经 向 保 险 公 司 索 赔 过。 在 这 条 规 则 中,  “ 年 龄 在 40 岁 以 上” ∩“ 工 作 在 A 区” →“向 保 险 公 司 索 赔 过”  可 以 看 出 来, A 区 可 能 污 染 比 较 严 重, 环 境 比 较 差, 导 致 工 作 在 该 区 的 人 健 康 状 况 不 好, 索 赔 率 也 相 对 比 较 高。 2020/9/15 50 分类和预测  分类是对一个类别进行描述及概括相关特征,并提取出描述重要数据类的模型。  数据挖掘中的分类方法很多,主要有决策树和决策规则、贝叶斯信念网络、神经网络以及遗传算法等。  预测是通过建立连续值函数模型达到预测未来的数据趋势。 预测的方法主要有回归分析、时间序列分析等。 各种分类模型也可以预测,但主要是预测分类标号。 51 2020/9/15 聚类  聚类是在要划分的类未知的情况下。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。