数据挖掘绪论浅谈数据挖掘(编辑修改稿)内容摘要:
ration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems 数据库管理员 OLAP 商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。 一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。 数据挖掘:多种学科的交叉 39 Data Mining Database Technology Statistics Machine Learning Pattern Recognition Algorithm Other Disciplines Visualization 2020/9/15 2020/9/15 40 对何种数据进行挖掘。 关系数据库( Relational database)、数据仓库( data warehouse)、事务数据库( transactional database) 高级数据库和面向特殊应用的数据库 数据流和遥感数据 时间序列数据、时间数据、序列数据(生物序列数据) 结构数据、图、网络和多维链数据 对象 关系数据库( Objectrelational databases) 异种数据库和遗产数据库 空间数据和时空数据 多媒体数据库、文本数据、 WWW 关系数据库是表的集合,每个表都赋予一个唯一的名字。 事务数据库由一个文件组成,其中每个记录代表一个事务。 数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通过数据清理、变换、集成等来构造。 41 关系数据库 2020/9/15 关系数据库是表的集合,每个表都赋予一个唯一的名字。 事务数据库 2020/9/15 42 ID 事务数据库由一个文件组成,其中每个记录代表一个事务。 数据仓库 2020/9/15 43 以面向主题的原则,以个人信用卡消费趋势为主题的星形模式数据仓库。 事实表 维表 数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通过数据清理、变换、集成等来构造。 Data Mining处理流程 44 DATA MINING 运行时间 定义企业问题 定义分析资料 数据预处理 数据挖掘 模型的评估 布署与应用 数据 源 DATA MINING 处理流程 2020/9/15 OLAP与数据挖掘 联机分析处理 OLAP(OnLine Analytical Processing)是使使用者从多种角度对从原始数据中转化出来的、易理解并真实反映企业特性的信息进行存取,以满足决策支持或多维环境特定的查询和报表需求的一种软件技术。 OLAP除了能够告诉你数据库中都有什么,还能够更进一步告诉你下一步会怎么样以及如果采取这样的措施又会怎么样。 其分析过程在本质上是一个基于用户建立的一系列假设驱动,通过 OLAP来证实或者推翻这些假设的演绎推理过程。 2020/9/15 45 实质上是通过把一个实体的多项重要的属性定义为多个维 (dimension),使用户能对不同维上的数据进行比较。 因此 OLAP也可以说是多维数据分析工具的集合。 旋转、切片(块)、钻取 钻取:是改变维的层次,变换分析的粒度。 它包括向下钻取( Drilldown)和向上钻取( Drillup) /上卷 (Rollup)。 Drillup是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而 Drilldown则相反,它从汇总数据深入到细节数据进行观察或增加新维。 切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。 如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。 旋转:是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 比如:一个 OLAP分析师可能认为,在某一区域开办信用卡的用户会更主动地进行消费。 对于这个假定,他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。 如果结果还不够明显,他也许要将年龄因素考虑进去。 一直这样下去,直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量,然后再根据这些变量,策划他的银行产品的营销方式,最大程度上将营销资源放在最可能接受他们产品的客户对象上。 2020/9/15 46 比如,在银行间盛行的 CRM的应用中,数据仓库以面向“客户”为主题进行数据筛选、存储;OLAP负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等,以动态分析报表、直方图、折线图、饼图等形式展现给管理者,让他们从多方面了解和掌握客户的动态,从而发现客户的交易习性、客户流失形式,更好地针对不同类型的客户,在不同时期进行适应性产品的营销活动。 数据挖掘则可以通过历史数据建立模型,在拟合历史的基础上,分析未来趋势,判断哪些因素的改变将很可能意味着客户的最终流失,进而避免其发生。 2020/9/15 47 OLAP与数据挖掘的区别 数据挖掘的功能 关联分析 分类和预测 聚类 异常值探测 序列模式挖掘 48 2020/9/15 关联分析是用于挖掘、发现大量数据中项集之间存在的、重要的、有趣的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 在不知道关联函数或关联函数不确定的情况下,为了反映所发现规则的有用性和确定性,关联分析生成的规则都要满足 最小支持度阀值和最小臵信度阀值。 49 关联分析 2020/9/15 关联分析的应用: 比 如 人 寿 保 险。 保 险 公 司 在 接 受 保 险 前, 往 往 需 要 记 录 投 保 人 详 尽 的 信 息, 有 时 还 要 到 医 院 做 身 体 检 查。 保 单 上 记 录 有 投 保 人 的 年 龄、 性 别、 健 康 状 况、 工 作 单 位、 工 作 地 址、 工 资 水 平 等。 通 过 分 析 这 些 数 据, 可 以 得 到 类 似 以 下 这 样 的 关 联 规 则: 年 龄 在 40 岁 以 上, 工 作 在 A 区 的 投 保 人 当 中, 有 45 % 的 人 曾 经 向 保 险 公 司 索 赔 过。 在 这 条 规 则 中, “ 年 龄 在 40 岁 以 上” ∩“ 工 作 在 A 区” →“向 保 险 公 司 索 赔 过” 可 以 看 出 来, A 区 可 能 污 染 比 较 严 重, 环 境 比 较 差, 导 致 工 作 在 该 区 的 人 健 康 状 况 不 好, 索 赔 率 也 相 对 比 较 高。 2020/9/15 50 分类和预测 分类是对一个类别进行描述及概括相关特征,并提取出描述重要数据类的模型。 数据挖掘中的分类方法很多,主要有决策树和决策规则、贝叶斯信念网络、神经网络以及遗传算法等。 预测是通过建立连续值函数模型达到预测未来的数据趋势。 预测的方法主要有回归分析、时间序列分析等。 各种分类模型也可以预测,但主要是预测分类标号。 51 2020/9/15 聚类 聚类是在要划分的类未知的情况下。数据挖掘绪论浅谈数据挖掘(编辑修改稿)
相关推荐
)。 对辅助数组初始化时间为 O(n)。 因此,当用邻接表作为图的存储结构时,广度优先搜索图的时间复杂性为 O(e+n)。 返回 最小生成树 在一个无向连通图 G中,如果取它的全部顶点和一部分边构成一个子图 G’,若边集 E(G’)中的边刚好将图的所有顶点连通但又不形成环路,我们就称子图 G’是原图 G的生成树( Spanning tree)。 生成树有如下特点
HDL 或 VHDL),原理图 ,逻辑图表示设计结果 ,有时也采用布尔表达式来表示设计结果。 电路设计 (Circuit Design):电路设计是将逻辑设计表达式转换成电路实现。 华侨大学 IC设计中心 38 第四阶段:时序验证与版图设计 任务 :静态时序分析从整个电路中提取出所有时序路径,然后通过计算信号沿在路径上的延迟传播,找出违背时序约束的错误 (主要是 SetupTime 和
P s qEP*001 , / , [ . ]mj j j jj q E q 其 中 表 示 以 为 概 率 测 度 的 期 望 运 算。 14 风险中性定价 风险中性定价 若存在一个无风险资产 S1, 回报率为 rf , 则 因此 , 风险资产在 0时刻的价格为 称为风险中性定价公式。 0 * 11 [ ] .iifP E Pr0 * 1 11 0 1
return (search (bright,k))。 } } 非递归算法 btree treesearch (BSTree *b, int k) { BSTree *p。 p=b。 while(p!=NULL)。 { if (pdata==k) return (p)。 else if (kpdata) p=pleft。 else p=pright。 } return (NULL)。 }
y or accuracy ( also known as rule reliability , rule strength, rule quality, certainty factor, discriminating weight )等 . 有用性 (utility) 如: support (association),s(A=B)=n(A nd B)/n(all), noise
[support = 2%, confidence = 72%] 酸奶占 奶制品 25% 我们称第一个规则是第二个规则的祖先 参考规则的祖先,如果他的支持度与我们“预期”的支持度近似的话,我们就说这条规则是冗余的。 2020/9/15 数据挖掘:概念和技术 33 数据挖掘查询的逐步精化 为什么要逐步精化 挖掘操作的代价可能高或低,结果可能过细致或粗糙 在速度和质量之间折衷