基于xml数据存储--毕业设计内容摘要:

档表示应该标准化,所以它只使用了一个固定的元素类型集。 这就使得 HTML 仅仅是符合 SGML 语法的一种固定格式的超文本标记语言,不可扩展,用户不能在其中增加有意义的并且能提供他们使用的标记。 浏览器开发商发现,通过对 HTML 非兼容性的扩充可以获取更大的市场份额,于是大量非标准的 HTML 扩展出现了。 在这方面,两大浏览器生产商 Netscape 和Microsoft 就是 典型的代表。 他们发明了许多只能被自己的浏览器所识别的标记,但非标准的扩展破坏了 Web 的交互操作性。 (2) 语义性差 HTML 只是一种表达的技术,它并不能对由各种标记所定义的数据含义进行说明,这就使得存放在 HTML 文档中的数据都是“死”数据,很难找到一种方法来从文档中搜索需要的数据,更不用说对 HTML 文档中包含的数据进行更深入的处理。 在数据交换越来越频繁、越来越重要的今天,缺乏语义性可能是 HTML 最为致命的弱点。 (3) 缺乏对双字节或多国文字的支持 HTML 缺乏对双字节或多国文字的支持。 例如在设计 HTML 网页时,经常发现中文信息在不同平台下出现格式不齐的问题。 同时,在 HTML 中,除了使用其固有的或各个浏览器开发商通过非标准扩展得到的标记之外,不能再用别的标记,更不用说非英语国家的用户使用本国语言定义的标记,比如中文标记。 HTML 的这种局限性也在一定程度上成为了网络发展的障碍。 XML 的产生和特点 HTML 实际是从标准通用标记语言 SGML(Standard Generalized Markup Language)衍生出来的一种简单的标记语言,受 Inter 热潮的冲击,很快它就成为在网上制作页面的标 准语言格式。 XML 也是从 SGML 所衍生出来的简化格式,与HTML 一样,其目的是让互联网上的数据描述有一个简单可行的标准。 只不过它们基于 XML 数据转储方法的设计与研究 第二章 XML 数据转储的基本概念 5 的服务目标和手法不尽相同, HTML 是单一的固定格式,而 XML 却是可以扩充的灵活格式。 XML(eXtenshible Markup Language)是一个体系,它主要有三个要素 : Schema(模式 )、 XSL(可扩展样式语言 )和 XLL(可扩展链接语言 )。 Schema 定义了 XML 文件的逻辑机构、 XML 文件中的元素、元素的属性以及元素与元素属性、元素与元素之间的关系,它可以帮助 XML 分析程序校验 XML 文件标记的合法性。 XSL 是用于规定XML 文档样式的语言,它能在客户端使 WEB 浏览器改变文档的表示法,从而不需要再与服务器交互通信。 由于 XML 与 HTML 都是 SGML 的进一步延伸,因此有许多相似之处,主要表现在 : 整个文档由若干元素组成,而每个元素又可以包含子元素,依次嵌套下去 ;采用纯文本格式,真正的数据是以纯文本格式表示的,可以用任意文本编辑器读写 ;用标签表示信息的类别以及标记标签之间的数据应如何处理。 XML 具有良好的数据存储格式、可扩展、高度结构化、易于网络传输等特征。 这些特征决定其卓越 的性能表现 [10]。 作为标记语言它还有如下特点 : (1) 开放性 : XML 能在不同的用户和程序之间交换数据,不论其平台如何。 (2) 自描述 : 它的自描述特性使其对于 B2B 和企业内部网解决方案来说是一个有效的选择。 (3) 可扩充 : 使用者可以创建和使用自己的标签,也可使用他人已定义好的标签,可扩展性大。 使用 DTD,不同组中的人就能够使用共同的 DTD 来交换数据,应用程序也可以使用这个标准 DTD 来验证收到的数据是否有效,也可以使用一个 DTD 来验证自己的数据。 (4) 国际化 : XML 支持世界上大多数文字。 凡能阅读 XML 语言的软件就能够顺利处理不同语言字符的任意组合。 因此, XML 不仅能在不同计算机系统之间交换信息,而且能跨国界和超越不同的文化疆界交换信息。 正因为如此, XML 可以提供在应用程序和系统之间传输结构化数据的方法。 像客户信息、信用卡交易、定单和完成请求,这类数据能够转换成 XML 并在应用程序之间共享。 XML 的应用领域 XML 由多位语言专家精心设计,具有 HTML 所没有的优势和特点,解决了HTML 面临的诸多难题。 正因为如此, XML 一经推出就受到业内人士认同,并在各领域内得到广泛的应用,甚至连 HTML 也按照 XML 的标准重新进行了规范,成为初露锋芒的 XHTML。 由于 XML 吸收了 SGML 和 HTML 两者的优点,并且避免了两者的不足之处,所以它具有的独特优势,使其很快在众多的专业领域得到应用。 基于 XML 数据转储方法的设计与研究 第二章 XML 数据转储的基本概念 6 (1) XML 与电子商务 近几年来,电子商务一直是 Inter 上最为抢眼的热点,而 XML 作为解决应用程序之间数据交换问题的方案,己经开始在电子商务领域崭露头角,且对电子商务的实现方式产生重大影响。 基于 XML 的电子商务可以实现使用者与系统之间的动态交互 [11]。 凭借 XML 的可伸缩性和自描述性,电子商务信函可在各企业的应用程序 间自动传输、处理和存储,不同厂商的电子商品目录可在同一访问界面同时呈现,信息的搜索将变得更为精确和迅速,不同系统间可以流畅地通信,不同网站之间的资料可动态地共享。 (2) XML 与无线通信 Inter 对人类的影响是巨大的。 越来越多的人利用 Inter 炒股、做生意、预定机票或房间,这使移动电话生产商和电信运营商们看到了前所未有的机会。 他们把 Inter 与无线通信网结合,这样无线上网技术就出现了,而其中起着关键作用的是 WAP(Wireless Application Protocol,无线应用协议 )。 WAP 是 XML 在无线通信领域的应用实例,它巧妙地利用 XML 令牌化的二进制表示,通过标准化的、自描述形式的 XML,满足二进制数据的精简形式。 WML (Wireless Markup Language,无线标记语言 )作为 WAP 规范的重要组成部分,同样是一个基于 XML 的、适用于无线通信设备的标记语言。 通过 WML,能够在移动电话上显示信息,还能够规定当用户激活一个用户接口或按某个键时,用户代理程序如何响应 [12]。 (3) XML 与科学 XML 的出现使 Web 上的科学渐渐地时兴起来。 第一个将 XML 应用于科学的是Peter MurrayRust 的 JUMB0 浏览器,它主要用于化 学标记语言。 化学标记语言可以在不造成任何语义改变的情况下,进行不同类文件格式的 转化,且能创建适合于专业出版的结构化文档。 XML 词汇表中 有一种 MathML,它为数学表达式的转化提供了一条途径。 MathML 会用纯粹的图片以及 ASCII 码来代替各类方程式,以便在适当的浏览器中准确地显示 出来,且为代数、几何、统计及其它数学软件工具的符号提供交换格式, XML 在科学上的应用将为开发强大的教育类工具提供坚实的基础。 XML 四种文档介绍 XML 文档 XML 的基本概念和术语都很简单,并且己经形式化为开放的因特网标准。 如同W3C 的 规范中所说的那样 :“ XML 文档由成为实体的存储单元组成,实体中包含解析过或未解析的数据。 解析过的数据由字符组成,其中一些形成字符数据,另一些形成标记符。 标记符对文档的存储布局和逻辑结构进行描述。 ” XML 文档同时具有物理结构和逻辑结构。 XML 文档的物理结构简单指向 XML 文件本身以及可能引入的其他文件,而 XML 文档的逻辑结构则指向文档的序言 (Prolog)和主体基于 XML 数据转储方法的设计与研究 第二章 XML 数据转储的基本概念 7 (body)[13]。 序言由 XML 的声明组成,包括 版本号、可能的语言编码、其他属性、可选的文档类型定义 (DTD)等,其中 DTD 可以是内部的,即包括在 XML 文档中,也可以是外部的,即指向另一个文件。 根元素出现在序言之后,它包括了 XML 文档的剩余部分。 这一部分由元素、处理指令、属性、注释、实体引用等组成。 XML 规则要求一个文档存在唯一的根元素。 元素必须有起始标记符和对应的结束标记符,而且应逐层嵌套,否则 XML 文档的格式就是不确定的, XML 解析器有可能因此而报错。 DTD 文档 文档类型定义 DTD(Document Type Definition), 定义 XML 文档的结构。 在电子商务中交换 XML 文档时, DTD 主要用于确保文档的一致性。 它本身使用的是EBNF(Extended BackusVaur Form)语法定义的。 由于 XML 是一种元语言,也就是一种描述标记语言的语言。 为创建新的标记语言需要用文档类型定义 (DTD)来进行定义。 单独的 XML 文档可以根据 DTD 进行比较,这个过程称为验证 (Validatioin)。 如果该文档与 DTD 中列出来的约束规则相匹配,则认为该文档是有效的 ; 如果该文档与约束规则不匹配,则认为该文档无效。 一个有效的 XML 文档不仅遵循 XML 的语法规则,而且受到 DTD 词汇规则的约束。 如果格式正规的 XML 文档未指明其应遵循的规则,那么解析器无法利用规则检查其中的错误。 这样整个系统的完整性无法得到保证,代码中的错误很难被发现。 它们还可能引起其他程序的中断,或者导致错误的数据进入系统。 DTD 用正式的语法书写,确切定义了文档内允许出现什么,不允许出现什么,解析器能够读懂这些规则。 DTD 和验证型解析器,能组成一种可靠的错误检测机制,保证 XML 文档的完整性。 DTD 内容一般包括 : 元素类型声明、属性声明、实体声明和符号表示法,以及这些内容之间可能的相互 关系。 DTD 的创建必须依照规范定义标记、属性、以及它们之间的关系。 如果 DTD 文件是需要被 XML 文件引用的,那么 DTD 文件就必须保证它的结构是良好的,否则 XML 解析器会报告 DTD 中的错误。 DTD 是使用文档类型声明 (例如, DOCTYPE)引入到 XML 文档中的。 文档类型声明放在 XML 文档的序言部分,以“ !DOCTYPE”开头,以“ ”结束。 文档类型声明可以在文件内部或者外部或者内外都有。 Schema(模式 )文档 Schema 与 DTD 都用来定义 XML 文档应遵循的规则 [12]。 DTD 是传统的 XML约束规则,它从标准通用标记语言 (SGML)继承而来的,发布时间早。 SGML 是为描述性文档 (例如报告、技术手册 )而设计的, DTD 可以满足这类文档的需要。 但是 XML基于 XML 数据转储方法的设计与研究 第二章 XML 数据转储的基本概念 8 超过了 SGML 的使用范围,它可用于对象串行化、股票交易、远过程调用以及很多看上去与传统的描述性文档无关的应用,在这些应用中 DTD 显示出了局限性。 DTD 的不足之处首先体现在完全没有数据类型的定义。 比如 DTD 不能表示一个Month 元素的值必须是 1 到 12 之间的一个整数。 在计算机系统交换数据的应用中,涉及数据格式是很常见的情况。 第二个不足 : DTD 使用 了一个不常见的非 XML 语法。 例如下面一个常见的元素定义 : !ELEMENT title(PCDATA),显然这和 XML的语法一点都不相似。 第三个问题是 DTD 只能进行有限的扩展,但是效果不太理想。 当 DTD 内容超过 10, 000 行代码后,整个 DTD 变得不可理解和管理。 另外 它对命名空间支持不够,当问题复杂时不太容易定义元素等。 这些问题可以通过引入 Schema解决。 XSL文档 XML 网页在浏览器中通常是以简单的树型结构显示的。 在 B2B 的体系结构中,由于 XML 只扮演数据交换的角色,因此,显示成 何种样式并不重要,但是在 B2B环境下,单纯的 XML 网页是无法满足客户需求的。 由于 XML 的文件标记可以由制作 XML 文件的用户制定,因此,浏览器无法事先对所有可能的标记定义其显示格式。 为了解决这个问题,使 XML 也可以适用于 WWW 环境, XML 采用了排版样式表的辅助方式来显示 XML 数据。 通过排版样式表的协助, XML 网页也可以多彩多姿。 排版样式表分为两种 : CSS (Cascading Style Sheet)与 XSL(eXtensible Stylesheet Language)。 其中 XSL 是专为 XML设计的排版样 式表 , 而 CSS 主要还是被 HTML 采用作为辅助显示的方式。 除此之外,XSL 还可以用作将 XML 源文件转换成另一个 XML 文件的工具。 XML 数据转储的实现 目前,多数企业的业务数据都存储在关系数据库中,而 XML已经逐步成为 Inter上数据交换和数据表示的标准,因此,有必要将企业内部的业务数据转换成 XML文档的形式进行发布;同时,企业又需要将外部的 XML数据转换成关系数据的形式,然后将之存储在内部的关系数据库中,以便于日后的维护和查询。 XML与关系数据相互转换系统作为企业应用中的一个中间处理单元,可 以很好地解决上述的两个问题。 它负责桥接企业内部。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。