文档详情

XML文档解析的研究与实现.doc

发布:2017-12-16约3.3万字共35页下载文档
文本预览下载声明
第1章 XML简介 本章对XML作简单的介绍,从XML的产生、特点、应用、发展前景及相关的开发工具等发面作简要的说明。通过本章节,我们可以大致了解XML,从宏观上掌握这种语言,为接下的章节作好铺垫,本章是基础。 XML在克服HTML的缺陷和局限性基础上产生和发展起来,XML推动了网络语言快速发展。21世纪将是XML广泛应用的世纪。 1.1 XML的发展过程 XML是标记语言发展的一个崭新的阶段,从GML的出现到XML的产生已经有19年。概括来说它的发展大致经历了以下几个阶段。 GML的出现 1969年,IBM公司的员工为解决不同系统中文格式不同问题,开发了一种文档描述语言GML,中文即通用标记语言。GML是一种自参考语言,它可以用来标记任何数据集合的结构,同时它也是一种元语言(Meta-language)即能够描述其他语言的及语法和词汇表的语言。 SGML的出现 1974年,IBM工作人员提出了在GML中实现语法合法性分析器的概念,经过多年发展,在1986年演变成一个国际标准(ISO 8897),并且称之为SGML。 到目前为止,SGML已经有十多年历史,比Web存在的时间还长。是一种元语言,是为维护知识库而设计的,这种知识库由电子格式保存的结构化文件组成,作为一种元语言,它为其他标记语言描述了文件结构。XML和HTML都可以认为是SGML的应用。一个SGML文件由3分组成,即语法定义、文档类型定义和文档实例。 SGML是一种强有力的、通用性极广的语言。可是,SGML非常难以使用。原因是培训人们使用SGML文件和创建能够阅读SGML文件的应用程序需要大量的时间和精力。由于这些问题的客观存在,SGML不适合Web的发展,对于设计大型复杂系统而言,SGML也是一套复杂的规范说明,用它难以达到信息标准化、数据和表达方式隔离、方法调用等。SGML的缺陷推动其他语言的产生和发展。 3.HTML的产生 1989年,欧洲量子实验室(CERN)的研究人员Tim Berners Lee开发了基业SGML的非常简单的超文本版本,即HTML(Hyper Text Markup Language),它是SGML的一个简化子集。HTML继承了SGML许多重要的特点,如结构化、实现独立和可描述性。 现在几乎所有计算机用户都熟悉HTML,人们应该感谢HTML,正是它因特网迅速成为人人都可以使用的工具,以至于Web几乎成了因特网的全部内涵。虽然在因特网发展早期,HTML是一门应用广泛的语言,但是随着因特网的日趋成熟,HTML许多缺陷和存在的问题越来越明显。 首先,HTML是把数据和显示格式一起存放的,不能只使用数据而不需要格式,而分离这些数据和格式很困难。其次,HTML对超文本链接支持不够。再次,HTML缺乏空间的立体描述,不能表示多媒体的同步关系等。最后,HTML的标记有限。HTML的问题导致新的需求逐渐形成:需要一种语言能满足更复杂和更大规模的用途如满足企业的功能运作等,这种语言它能自动检查语法和内容结构的有效性。最理想的是文件的作者能同时定义文件格式和数据的正确结构。 4.XML的诞生 随着网络的发展,HTML存在的问题变得不可忽视。1996年万维网联盟(World Wide Web Consortium,W3C)开始发展一种新的标准标记语言,这种语言比SGML更易于使用,比HTML的结构更严谨。它是SGML的一个新的简化子集,被称为XML。它是为文档交换所设计的,并以一种开放、自我描述方式定义数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。这种所组织的数据对于应用程序和用户都是友好的、可操作的。XML的诞生是计算机史上一个重要的里程碑。 XML的起源和演化过程可以用下图来描述。图1-1 XML的起源和演化 1.2 XML的特点 XML和HTML都属于SGML的子集,但与HTML不同,XML有DTD。回顾XML设计目的我们可以知道,XML文档是合乎规范的SGML文档,它使得在Web上能以现有超文本标记语言(HTML)的使用方式提供、接收和处理通用的SGML成为可能。XML既顾及了实现的方便性,也考虑到了SGML和HTML的互操作性。 XML的设计目标如下: XML文档容易创建。 XML应该可以直接在因特网上使用。 XML文档的处理程序应该容易编写。 XML中的可选项应该尽可能少,理想状态下为零。 XML的设计应该正式而且简洁。 XML与SGML完全兼容。 XML可以支持大量不同的应用。 XML文档应该清晰明了,并且可读性要强。 综合以上目的以及设计思想,我们可以了解到XML的大致特点,总结如下: 具有良好的格式。当然XML也不是完美的语言,它也有一些缺陷和不足。如一,它是树状存储的,寻找的效率非常高,不过插入和修改比较困难
显示全部
相似文档