某银行数据仓库方案建议书内容摘要:

性,所以上节所说的系统管理能力也很重要。 数据获取的核心是企业数 据仓库目录的分发和管理。 该功能由 DB2 UDB EEE 中的产品 Data Propagator 完成。 数据存储 在 SP 硬件平台上,可选的数据存储产品有 ORACLE、 INFORMIX 15 和 DB2 并行版本,我们推荐 DB2 并行版本 UDBEEE,该产品在加拿大实验室开发,得到多数顾问的一致推荐,因为 DB2 并行版本是目前市场上唯一完全符合标准的 MPP 数据,通过广泛的安装和使用进一步证明了其能力。 在 SP 平台上实现数据仓库选用 DB2 并行版本的占了超过 50%,远远超过第二位 的 ORACLE,因为它目前唯一一个全并行的数据库。 最近作了一个关于 VLDB (超大型数据库 )的调查中, DB2 成为最受欢迎的产品,在五大数据库中无论是数据库的容量还是用户数都远远领先。 例如一家叫 BellSygma 的公司,正在使用 DB2/MVS 作市场分析,随着 UNIX 平台上的数据仓库的不断发展,他们在考虑转型时决定采用 DB2 并行版本,因为他们已经有 DB2 的使用经验,而且 IBM 在 VLDB 上令人信服的技术和经验,可信的运行记录等促使他们作出这种决定。 时至今日,他们已经开发 出几个 VLDB 的数据仓库应用,都有非常好的可扩展性和性能。 一向以来, DB2 因为其多样化的功能而受世界各大型企业的普遍欢迎,美国最大的 500家企业中有超过 80%采用了 DB2,其中前 100家全部采用了 DB2。 DB2 并行版本象 SP 平台一样,能帮助象 ⅩⅩ 银行这样的企业去应付各种类型的业务压力,有足够的灵活性去增加,删除,重新开发和管理应用和数据, DB2 有独特的可重用特点,能同时作数据仓库、数据集市和内部网应用的数据库服务器,将来还可以把DB2/400 的应用向下优化到 DB2 上。 最新的 TPC- D 测试表明, DB2 的性能是并行数据库中最好的,这次测试模拟了一个实际的数据仓库环境,从 TPC 量度上来看,与ⅩⅩ 银行目前的数据仓库规模比较接近, IBM 公司在 1996年共投入了1200个人年开发 DB2 产品,今后仍会保持这种力度以保证并行数据库领域的领先地位。 决策分析支持工具 面向最终用户的工具种类繁多,有 IBM的 Visualizer、 Data Inter Pretation ;其他公司的如 Cogons 、 Information Advantage、 Business Objects 、 BrioQuery、 CrystalReports、Microstrategy、 Prodea、 Arbor 的 EssBase 等。 汇集总体层次上的数据,从多个角度去分析,发现有价值的信息,但每个工具的功能范围都比较单一而固定。 经过专家的讨论,我们推荐 Arbor 的 EssBase,作部门级数据集市方案中的多维数据库。 我们也希望建立数据采掘的合作关系,以 16 便更好地发挥 IBM 最新的数据采掘和发现技术的作用。 IBM 的数据采掘技术 数据仓库最重要的作用就是发掘信息, 更好地支持业务决策,增加客户忠诚度,提高市场占有率和利润,信息发掘的应用有市场分析,利润评估,成本审核等。 现在的技术趋势是以信息发现为驱动,提高上述应用的效率,IBM在这方面的研究和开发工作一直处于领先地位,与几个重大的金融和零售业客户合作,开发出一些有针对性的解决方案。 在此基础上汇集成一个完整的数据采掘工具包, Intelligent 1996年六月推出,支持 RS/6000 和 SP 平台上的 DB2,该项技术在业界内堪称一绝。 第一版的产品内含有八个独立的算法。 META 集团的 AaronZornes 曾高度评价这一技术“ IBM 的数据采掘工具包和提供的相关的服务,相信会对大型企业的数据仓库技术带来决定性的影响。 ” 这项技术是一项新技术,对 ⅩⅩ 银行而言很有好处,采用这项技术可以使贵行与其他银行在技术上拉开差距,这项技术必然会进一步发展,同时也就保证了贵行在数据仓库上的投资能发挥更大的作用。 企业数据仓库目录 数据仓库的元数据是数据仓库完整性、自动化程度和可用性的基础,元数据定义了数据仓库的处理过程,记录下来并支配整个运行过程,对业务型用户而言,元数据是一 种信息目录,从中可以较容易地理解和使用数据仓库中的信息。 元数据的来源,信息模型和存储技术有很多种,通常相互之间是冲突的,为了使各种工具可以顺利地互相交换元数据,需要 Metadata Interchange Coalition 的帮助,提供元数据的标准化的交换。 IBM, ETI, Infromation Advantage 和 Vality 等公司都支持这种标准,我们与其他数据仓库厂商也正在共同合作,以达成最终的标准。 IBM 的方法与 Coalition 的策略完全一致,技术性的元数据和业务 性的元数据的内容和使用方式都是比较独立的,针对不同的用户,应该有不同的元数据存储,优化信息结构。 IBM 推荐的方案中,技术性的元数据可以用 ETI,业务性的元数据用 IBM 的 DataGuide, 17 这些相互独立的产品虽然来自不同的厂商,但组合起来能发挥更大的作用,因为它们是所在领域中最好的产品,否则无论如何都要维护两套元数据目录,还要保证它们之间的同步。 ETI 和 DataGuide 的同步由 ETI 负责,因为 ETI 有一种很特别的功能,能象处理其他数据源一样处理 ETI 的元数据存储, ETI 最大的长处就是有选择的查询、传送数据,不受软件和硬件的影响,能在任何格式的数据库或文件间传送大量的数据,所有操作都是在元数 据 的 控 制 下 进 行。 ETI 的元数据存储能卸出,然后卸入 DataGuide,或与 DataGuide 的数据合并,整个处理过程可在图形界面中完成,最后能生成相关的报告, ETI 还支持版本控制,建立并维护详细的审计记录。 DataGuide 是 IBM 的信息目录工具,集成工作组级和企业级上的最终用户业务元数据, DataGuide 中的元数据按业务性质划分成多个业务组,最终用户很容易浏 览,分析时如果要查找某一对象,如报告、电子表格、数据库、程序、 ETI 元数据存储或数据采掘工具等,DataGuide 都能把所需的数据连同信息抽调出来, DataGuide 的目录信息存储在 DB2 中,与数据仓库中的业务数据放在相同的地方。 咨询与顾问服务概述 ⅩⅩ 银行已有开发大型项目的技术和经验。 根据 IBM 在数百个数据仓库项目中的经验,其中有几个与 ⅩⅩ 银行的情况相类似,我们有信心帮助贵行利用已有的技术和经验,把系统升级,扩展数据仓库的范围和业务应用的广度。 IBM 一向是通过增加商 业价值来推动项目的进展,保证用户花在数据仓库上的每一分钱都是物有所值的,所采用的技术都是绝对有必要的,与业务需求相适应的,我们的方案进展是分期进行的,保证整个项目按步就班,达至最后完全成功。 IBM 是世界最大的顾问服务公司,提供全面的顾问服务,在 ⅩⅩ银行项目中我们有三个突出的长处: ★ IBM 充分认识到数据仓库的重要性,专门建立一个技术中心,由数百个专业人员组成,设计、实现并管理数据仓库项目中的所有部件。 ★ IBM 已有多年为客户提供数据仓库咨询与顾问服务的历史,附录中列出了 IBM 数据仓库顾问服务的方式。 ★ IBM 有数据采掘方面领先的技术,在过去十年中,超过 50个研究人员专注于超大型数据环境中的数据发掘的研究,研究工作在遍 18 布世界各地的 9个实验室中进行,前后共研制了 42种数据发掘的算法,所有这些成果,再加上我们提供的专业顾问服务,帮助客户设计方案,实现和开展培训,构成了数据采掘的强大力量。 19 第三章 硬件产品介绍 在仔细研究 ⅩⅩ 银行 总行目前的运行环境,以及总行对数据仓库计划的需求后, IBM 提出 SP 解决方案。 IBM 方案结合了在不同平台 (IBM RS/6000 及 IBM AS/400) 间数据移动 (data movement),系统连接 (system connectivity) 以及系统可扩展性 (system scalability) 等许多新的技术,这些技术不仅可以满足总行目前的需求,而且提供了满足未来需求的基础。 解决方案 : 因为目前总行每天的日常操作是在 AS/400 上运 行,为确保不影响 日常的运行,以及满足数据仓库大量运算的需求, IBM 建议使用 IBM 最高档的 UNIX 平台 RS/6000 SP,因为 SP 具有 (1)开放式系统功能。 (2)高可扩 展性等优点,足以满足总行目前及未来的需求。 IBM 解决方案的主机硬件需求 : 八个 R50 节点的 RS/6000 SP,每节点配置有 8个 CPU, 4GB 内存, GB 内置硬盘,外置硬盘为。 各节点的外置硬盘不互连。 八个节点通 过 SP SWITCH 相联,构成 SP 的 MPP 结构,而每个节点内采用 8 CPU 的 SMP 结构。 物理上八个 R50 节点占用两个 SP 机柜,每个 SP 机柜可放置四个 R50 节点。 八个 7133020磁盘组占用两个 R00 机柜,每个 R00 机柜可放置四组 7133硬盘 (每组 16个 )。 IBM RS/6000 Scaleable POWER Parallel (SP) 介绍 SP 是 RS/6000 系列产品线中最高档的产品,是 IBM 专门为需要大量高速计算客户 所设计的并行机, SP 的结构是高度可伸缩的 ,最小的 SP 可以只有一个节点,最大的 SP 可以到 512个节点。 SP 有三种节点:窄节点、宽节点、高节点,每个 SP 机框 (System Frame) 可以放置 16个窄节点,或 8个宽节点,或 4个高节点。 所谓的高节点即是 RS/6000 SMP 机 R50,每个高节点最多可以有 8个CPU, 4 GB 内存及 6900GB SSA 硬盘 (或 2700GB SCSI硬 盘 )。 20 节点之间的通讯是通过 IBM 专门为 SP 设计的 SP Switch 来实现 , 节点与外部的通讯则可选择用以太网, FDDI 或 ATM。 每个节点都运行 AIX 操作系统。 一个低档的 RS/6000 工作站用来作控制台,控制整个 SP 系统的运行。 整个 SP 系统可以当作一个系 统运行一个大的并行作业,或者可以区分为几个小系统,每个小系统运行自己的作业。 SP 是高可伸缩性的并行计算机 SP Sharednothing 和离散式内存的结构,比共享内存 SMP 结构及松散耦合式的 服务 器集群 (LooselyCoupled Cluster) 在可扩展性上有显著的优势, SMP (对称式处理器 ) 结构,由于共享内存及使用单一的操作系统,在可扩展性的限制上是众所周知的。 SMP 结构的第一个瓶颈在于所有的 CPU 均需通过一条系统总线,到内存获取数据, CPU 之间往往 需要彼此竞争来取得系统总线的使用权。 SMP 结构的第二个瓶颈在于缓存的一致性 (Cache Coherence),也就是说每个 CPU 必须消耗极多的时间来确定每个缓存中的数据是一致的,当某个 CPU 改动它缓存中的数据,它必须把这个 更改 通知到其他各个 CPU,这对 CPU 及系统总线的开销都是很大的。 SMP 结构的第三个瓶颈在于它使用一个操作系统,这个操作系统由所有的 CPU 所共享,许多内核 (kernel) 的结构需要加锁 (Locking )与解锁 (unlocking),来确保 数据的一致性,这种 Locking 机制对 SMP结构是一项极大的系统开销。 SMP or MPP For Data Warehousing 目前有愈来愈多的数据仓库应用使用像 IBM RS/6000 SP 这种多功能并行机 (MPP) 作为硬件平台,这是因为: UDB的 EnterpriseExtended Edition(早期版本为 DB2 PE) 已成熟地运行在 SP 上,而并行运算的复杂性均被数据库所涵盖,原有的应用不需要经过任何改变,即可充分利 用 SP 的结构达到并行的效果。 ,就以数据 Scan 为例:各数据库均有很好的方法把数据放在不同的硬盘上,由不同的节点对之操作达到线性加速的效果。 SP 作为数据仓库平台,而且成功的案例 21 越来越多。 由于数据仓库计算量及数据量均极为巨大,选择一个具有高度可扩。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。