数据仓库之路faq(doc22)-物料管理(编辑修改稿)内容摘要:

加载数据仓库数据库并使它以一种适宜的方式可用。 五、 数据仓库开发过程  建立或获得企业的数据模型;  定义记录系统;  设计数据仓库并按主题领域进行组织;  设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;  开始载入第一个主题领域,进入载入和反馈过程,数据仓库中的数据在此过程中也在不断地改变。 数据模型的内容  标识主要 主题领域。  各个主要主题之间的各种关系。  清晰地定义模型的边界。  把原始数据和导出数据分离。  每个主题领域需要标识  键码  属性  属性分组之间的关系  多重出现的数据  数据的类型 数据模型转变到数据仓库  如果原先没有时间元素的话,时间元素必须加入到键码结构中  必须清除所有的纯操作型数据  需要将参照完整性关系转换成“人工关系”  将经常需要用到的到处数据假如到设计中  对数据的结构进行调整  增加数据阵列  增加数据冗余  在合适的情况下进一步分离数据  在合适的时候合并数据表  需要做数据的稳定性分析 数据仓库开发成功的关键 关键:是数据体系结构设计者和 DSS分析者之间的反馈循环。 有几点观察结果对数据仓库环境的成功建立是至关重要的问题:  DSS 分析人员一定要严格遵循“给我我所要的东西,然后我能告诉你我真正需要的东西”的工作模式;  反馈循环的周期越短,越有可能成功;  需要调整的数据量越大,反馈循环所需要的周期就越长 六、 数据仓库的数据采集 许多部件构成了数据仓库系统。 这个系统从现有的操作系统开始,一部分为支持数据仓库而设的后台处理,以访问和运用数据仓库内数据的用户工具而结束。 在中间是个分散过程,它使数据以一种局部而不是集中的方 式来支持用户。 至于其他系统,则是覆盖这些处理过程技术的基础,如安全系统,它不仅控制着在终端数据仓库的输入过程,还控制着用户在数据仓库的前台访问能力。 数据仓库处理的部件如图: 后置处理 中间处理 前置处理 后台处理 数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占有活动区域:这个处理包括以下几个部分:  数据处理 为数据仓库收集数据的过程是从当前操作系统开始 的。 该数据仓库的后台处理需要被分成可管理的几个处理模块。 操作系统生成必须处理和输入到数据仓库的事务。 在数据仓库系统的结构内必须有一种方法来截取和收集那些在操作系统内已改变的数据,主要用于数据仓库的输入处理。  数据采集 在收集到操作数据存储器内的变化后,数据仓库的后台处理必须采集所有同以前收集的事务相关的数据。 数据采集过程通常仅仅获取驱动数据采集过程的关键信息。 数据制备成事务库并用它来更新和供给数据仓库系统。 这个过程在整个数据仓库系统中是最复杂的,因为用户正安全处理 用户查询 操作系统数 据存储器 数据的转 换和清理 数据仓库 部门数据中心 多维数据中心 处理多种遗留数据源。 这些数据源中的一些较为容易 使用,而大部分则不是这样。 中间处理 数据仓库系统的中间处理利用了一个登台区域来完成在数据仓库中对用户游泳的数据。 登台区域有时被叫正式地指定为操作数据存储器。  数据清理 在收集到所有从操作系统存储器得来的相关信息后,数据必须在放入数据仓库之前进行清理,以获得一个适当的统一的格式和定义。  数据的放置和分发 当完成数据清理后,数据就必须放置到数据仓库中。  标准报表的编译和索引 在数据已放入数据仓库数据存储器之后,对包含于数据仓库系统内的标准报表必须进行编译和索引。 在这个过程结束后,报表很像数据仓库内的原始数据 ,将让用户在线有用,不必用纸张的形式发送。 中间处理更新了数据仓库中登台区域的数据,并使之成为可供最终客户,也就是数据仓库系统的用户使用的信息库。 前台处理 前台处理过程涉及到允许用户对数据仓库所包含的信息进行正确的访问,及提供用户工具集所需的目录和中间数据信息。 大多数数据仓库项目的目标应当是驱使这一过程进入强大的用户领域,并脱离信息系统空间。 然而,需要构造几个关键的应用程序以用于经验不足的数据仓库用户。 该过程的任务包括用新的信息内容来更新访问数据仓库的应用程序,通过适当的用户工具组内的视图或分类定义来 提高访问能力。 数据仓库的技术体系结构 虽然普遍认为数据仓库系统能够改善最终用户查询、报表生成和 DSS 能力,而且能帮助组织投入公司数据以获取市场竞争优势,但在数据仓库系统构成方面看法却不尽相同。 数据仓库的技术体系结构如下图: 源数据 外部数据  设计模块:用于设计数据仓库数据库  数据获取模块:用于从源文件和源数据库中获取数据,并进行清洁、传输,将它加到数据仓库数 据库中  管理模块:用于管理数据仓库的运行  信息目录模块:用于为管理者和企业用户提供有关存储在数据仓库数据库中的数据的内容和含义信息  数据访问模块:用于为企业的最终用户提供访问和分析数据仓库数据的工具  中间件模块:用于最终用户工具提供访问数据仓库数据库的方法  数据传递模块:用于向其他仓库和外部系统中分配数据仓库数据 数据仓库的三个重要组成部分,专家们一般把整个数据仓库的建设按照其不同性质,把它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现。 现在讲的最多的 OLAP分析和决策支持等,都是属于数 据呈现的部分,下面我们来讲一讲数据准备阶段的问题。 数据的有效性检查 为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。 如果没有进行刃具信息目录模块 数据仓库之元数据 数据管理员模块 数据仓库之数据 数据获取模块 数据传递模块 中间件 模块 数据访 问模块 设计模块 管理模块 外部元数据 的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。 源系统专家包括具有技术专业知识和非技术知识的人士。 检查数据仓库中数据的有效性是一个非常耗时但必不可少的过程。 建议该过程应高度自动化。 SQL Server7 中有许多内置功能,可自动进行数据有效性检查。 清除和转换数据 有效性检查是 决定是否符合给定标准的过程。 标准是依赖于安装的,为某个站点开发和执行的标准可能在其他地方毫无意义。 如果数据不在给定的界限之内,它就成为我们称作 scrubbing(清除)过程的对象。 清除数据包括对那些在给定范围之外的数据采取纠正措施。 数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。 如何向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。 在数据迁移的过程中,通常需要将操作数据转换成另一种格式以 更加适用于数据仓库设计。 在太多数情况下,转换是将数据汇总,以使它更有意义。 在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。 同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。 数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。 大多数传统的数据存储方法缺乏标准,常常有些不规则的东西让开发员摸不着头脑。 工具正在不断改进以有助于转换过程的自动化,包括。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。