ImageVerifierCode 换一换
格式:DOCX , 页数:17 ,大小:37.75KB ,
资源ID:9296058      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/9296058.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(HTML与XML之比较.docx)为本站会员(b****8)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

HTML与XML之比较.docx

1、HTML与XML之比较 SGML、HTML與XML之比較Comparison of SGML, HTML and XML陳嵩榮Sung-Jung Chen輔仁大學圖書資訊學系碩士班學生Graduate student, Dept. of Library & Information Science,Fu-Jen Catholic UniversityE-mail: ms486131green.lins.fju.edu.tw摘要本文將依發展的時間順序介紹三種值得電子圖書館領域注意的電子文件格式:標準通用標示語言(Standard Generalized Markup Language;簡稱SGML

2、)、超文件標示語言(Hypertext Markup Language;簡稱HTML)與最新崛起的可擴展標示語言(Extensible Markup Language,簡稱XML),並作簡單的比較。AbstractThis article is to introduce three formats of electronic document in order of development which are worth watching closely by digital library community. They are SGML(Standard Generalized Marku

3、p Language), HTML(Hypertext Markup Language) and XML(Extensible Markup Language), which is the new markup wave. Then have a simple comparison of them.關鍵詞:標準通用標示語言;超文件標示語言;可擴展標示語言;標示Keywords:SGML (Standard Generalized Markup Language); HTML (Hypertext Markup Language); XML (Extensible Markup Language

4、); Markup壹、前言 電腦是處理資訊的工具,硬體是處理資訊的實體資源,軟體則是為了處理特定資訊設計出來的流程。電腦之所以能對我們的生活帶來很大的效益,是因為電腦具有處理資訊的強大能力,硬體與軟體的不斷進步代表著電腦處理資訊的能力愈來愈強,但電腦要能夠發揮效益,除了要有硬體和軟體之外,還要輸入資料,資料經過電腦的處理,輸出有價值的資訊,這才是我們使用電腦的主要目的。平常電腦硬體與軟體的進步總會引起較大的注意,例如:Intel發表新一代的微處理器、Microsoft發表新的作業系統或應用軟體總是資訊界的盛事,但一般人較少注意到資料格式(data format)的發展事實上對資訊的處理、管理與

5、利用所帶來的影響並不遜於軟硬體的革新,尤其對電子圖書館等保存大量公共資訊的組織而言,所採用的資料格式必須確保所有的文件資訊能妥善地長期保存,並能以最有效率的方式被存取與傳佈,因為這些資訊是社會重要的資產,而且通常是對社會較有價值的資訊(註1)。本文將依發展的時間順序介紹三種值得電子圖書館領域注意的電子文件格式:標準通用標示語言(Standard Generalized Markup Language;簡稱SGML)、超文件標示語言(Hypertext Markup Language;簡稱HTML)與最新崛起的可擴展標示語言(Extensible Markup Language,簡稱XML),並

6、作簡單的比較。SGML是ISO在1986年所頒布的國際標準(ISO 8879),在電子圖書館相關計劃中,目前有TEI(Text Encoding Initiative)、EAD(Encoded Archival Description)、CIMI(Consortium for the Interchange of Museum Information)、DIAP(Digital Image Access Project)與美國國會圖書館的American Memory Project等採用SGML作為文件格式(註2,3,4);HTML是SGML的一個應用,是一種用以創造超文件(hypertex

7、t)的簡易資料格式,目前在全球資訊網(World Wide Web;簡稱WWW或Web)獲得普遍的採用,是寫作網頁(webpages)的標準語言;XML是全球資訊網聯盟(World Wide Web Consortium;簡稱W3C)在1996年底所提出的標準,1998年2月公佈XML 1.0 Recommendation,相關標準目前仍在發展之中。這個新一代的標示語言被期許能具有SGML的彈性,但又不像SGML般複雜,並能如HTML般能在Web上傳送。貳、何謂標示(markup)?SGML、HTML、XML都是標示語言(Markup Language)。最早,標示是文件在排版時,用來指示文字

8、如何編排的指令,包括控制字體的大小、字型的選擇(如楷體、細明體等)、字形的處理(如粗體、斜體、加底線等)、頁面的大小(如A4、B5等)、天地左右的留白寬度、標題、段落、註腳、表格等,這些標示並不處理文件的內容,主要用來處理文件實際的呈現外觀,這類的標示稱為程序性標示(Procedural Markup)(註5)。大部分的電子出版或文書處理軟體都使用專屬性的程序性標示,也就是說這些系統都使用專屬的控制碼來執行文件的處理,如字體的加粗、放大等,這些專屬的控制碼大都只能在特定平台的特定的系統或相關軟體中執行,如果所使用的硬體或系統軟體換了,這些標示過的文件往往必須進行重新標示的工作,這種資料轉換所花

9、費的代價通常相當的大;同樣的,使用程序性標示的文件在交換時,文件交換的雙方通常必須使用相同的系統。一般而言,程序性標示的作用都只針對單一文件,例如控制某一份文件以特定的格式輸出,如果同一份文件內容希望以不同的呈現外觀再利用,必須移除先前的標示,加入符合新的呈現外觀的標示;或者將同樣的文件內容複製一份,為新的呈現外觀進行標示。另一類的標示稱為描述性標示(Descriptive Markup),也稱為通用標示(Generic Markup或Generalized Markup),所描述的是文件的內容(content)或結構(structure),而不是文件的呈現外觀。描述文件結構的方式是以標示指定

10、結構中的元素(elements),以文章為例,其結構可能有標題、章、節、參考書目等;以書信為例,結構可能有寄件人、收件人、書信內容等。通用標示的基本概念是文件的內容必須和文件的呈現資訊(即所謂的樣式)分開(註6),由於內容、結構與呈現資訊分開,所以同一份文件內容可以有多種呈現方式,例如同一個檔案可能以紙本、線上、CD-ROM與Web版本發行。以圖一(註7)為例,Content是文件的本文資訊,Structure是標示的結構,這兩部份是通用標示所要描述的,Presentation是文件的呈現外觀,在Content、Structure與Presentation之間的Formatter主要是用來設定

11、文件的輸出格式,樣式表(Style Sheet)的角色就是屬於這個部分。由於內容、結構與呈現資訊分開,如果同一份文件內容希望以不同的呈現外觀再利用,只須修改樣式表或產生一份新的樣式表即可,文件內容與結構的標示完全不須更動,因此通用標示在文件的再利用方面要比程序性標示有彈性的多。XML、SGML都是典型的通用標示語言,HTML就比較特殊了,HTML的標籤集(tag set)中大部分是用來設定文件在Web上的呈現外觀,少部分描述文件的結構(如:, , )。由於HTML是SGML的一種應用,所以HTML並非程序性標示語言,而是以描述性標示的方式來控制文件的呈現外觀;HTML的樣式是內建的,並不像XM

12、L、SGML有分離的樣式,所以HTML標示的作用與程序性標示類似是針對單一文件,並不像XML、SGML有較高的再利用彈性。圖一參、SGMLSGML是ISO在1986年所訂定的標準,編號是ISO 8879。SGML 是一種元語言(meta-language),元語言是一套可以用來定義其他更專門性的標示語言的通用規則,HTML就是由SGML所定義出來,專門使用在WWW上的標示語言(註8)。SGML主要應用在文字資料的交換,但也適用於其他的資料型態,SGML是很好的資料儲存格式,適用於任何複雜的文件結構,但缺點是在網路傳輸(network delivery)方面較為不便。由於介紹SGML的中文文獻已

13、有一些(書目請參考註9,10,11,12,13),本文不再對SGML作全面性的介紹,只介紹SGML的優點與限制。一、SGML的優點(註14):1. 有彈性(flexibility):SGML能描述任何的資訊結構與任何複雜的文件,其應用可以簡單如HTML,也可複雜如TEI、EAD、CIMI;SGML是完全可擴展的(extensible),可以針對各種類型的文件結構訂定出合適的標籤集(tag set);SGML是理想的資料儲存格式,提供了相當多的選項功能,可以適用於最複雜的資訊處理。2. 非專屬性(non-proprietary)、平台獨立(platform-independent)與系統獨立(s

14、ystem-independent):SGML並不專屬於特定的平台與特定的應用系統,因此SGML文件可以在彼此不相容的系統間交換,不會造成資訊遺失(information loss),這個特性使得SGML文件可以長久保存。3. 資訊再利用性(re-usability):透過SGML文件內容模組(content module)的再利用,使得文件的產生更有效率、更經濟,SGML文件的內容可以重複利用,或者被其他的SGML文件使用,不須重新產生內容。同一份文件內容也可以透過樣式表(style sheet)以多種呈現方式出版。 二、SGML的限制(註15,16,17):1. SGML應用程式不易開發:

15、SGML龐大且複雜的選項功能雖然使得SGML具有較高的彈性,但也增加了應用程式開發上的難度,即使SGML工具的主要供應廠商ArborText所發表的產品,也沒有百分之百支援SGML標準。事實上,SGML有許多選項很少被應用,如果把這些不常用的選項去掉,將使得應用程式的開發變得更容易。2. SGML文件不易在Web上傳佈:要能夠瀏覽SGML文件,必須要有文件型別定義(Document Type Definition;簡稱DTD)及樣式表(Style Sheet)。DTD定義了文件結構間的關係,樣式表定義了這些結構的呈現格式,如果少了DTD與樣式表就只能看SGML文件的原始碼了。由於目前Web上的

16、主流瀏覽器只支援HTML,HTML文件並不需要DTD與分離的樣式表,因此SGML文件在Web上只能透過特定了瀏覽器(如Panorama)才能閱讀,不過這類的瀏覽器並不普及。如果希望SGML資訊能在Web上被大多數人瀏覽,只好透過轉換程式將SGML轉成HTML,但這樣的轉換往往會造成資訊遺失(Information Loss),原本SGML文件中所標示的結構在轉換成HTML文件後並無法繼續存在。3. 缺法廠商的支援:Web上的主流瀏覽器廠商Microsoft與Netscape支持HTML的發展,但並沒有支援SGML的意願;由於SGML過於複雜,也只有少數廠商願意投資開發SGML的相關應用程式,這

17、使得SGML在普及上造成很大的障礙。肆、HTMLHTML是SGML最著名的應用,是一種專為WWW網頁顯示及瀏覽而設計的簡易標示語言,目前是WWW上製作網頁的標準語言格式。WWW的開山祖師Tim Berners-Lee對HTML所下的定義是:HTML是一種用以創造超文件的簡易資料格式,其所創造出來的文件可在不同的作業平台間移動。由此可知,可攜性(portable)與簡易性(simple)是HTML的兩大特徵。(註18)HTML文件除了包含文字資訊外,尚可包括聲音、影像等多媒體資訊,而HTML的超鏈結除了網頁內的鏈結,也包括網頁之間的鏈結。以下介紹HTML的特色與限制。一、HTML的特色(註19)

18、:1. HTML DTD的設計主要是滿足線上顯示的需求。許多標籤純粹是用來指定網頁的呈現細節,例如: br 是換行(line break)。 hr 是畫一平行線(horizontal rule)。 b 表示粗體字(bold)。 i 表示斜體字(italic)。2. HTML有內建的樣式(style)。HTML希望直接使用SGML標示來控制網頁呈現的樣式,亦即HTML不需要有分離的樣式表,這使得HTML更為簡單易用,但缺點是較沒有彈性,同樣的文件內容只能設定一種呈現樣式。3. HTML引用SGML的標示最簡化特徵(markup minimization feature)。這是為了盡量減少HTML

19、文件標示的數量,使HTML的標示更簡單,最明顯的例子是結束標籤(end-tag)的省略。例如在HTML 2.0 DTD中,p(paragraph)的結束標籤是可以省略的,其元素型別(element type)的宣告如下: 其中 “-” 表示起始標籤(start-tag)是必備的,大寫字母 ”O” 表示結束標籤是可省略的(”O” 是 “omissible” 的意思)(註20);倘若結束標籤是必備的,則元素型別宣告應該如下:結束標籤的省略雖然使得HTML的標示更為簡單,但也成為描述文件結構時的限制,HTML文件中所有的段落標示 在地位上都是平行的,省略了結束標籤就無法描述段落中又有段落的結構。4.

20、 HTML沒有採用SGML的超鏈結(hyperlinking)機制。HTML的超鏈結是利用標籤 (a是anchor的意思)的 “href” 屬性來指向Web上的任意文件,例如: 是一個外部鏈結(external link) 是內部鏈結(internal link)而內部鏈結的目標點是利用標籤 的 “name” 屬性來指定,例如: SGML則是利用ENTITY或ENTITIES屬性型態及 ID IDREF機制來達到超鏈結的效果(註21)。二、HTML的限制(註22):1. 結構上的限制:HTML最大的限制就是它的標籤集是固定的,而這些標籤大都屬於呈現導向(presentation-oriente

21、d)的標籤,主要用來指定網頁的顯示格式,這個特性使得HTML只能支援固定且簡單的文件結構,而且在資訊再利用、資料交換與自動文件處理方面都造成很大的限制。2. 資訊再利用的限制:許多企業組織都有需要將相同的資訊以不同的形式來出版,例如印刷版本、CD-ROM版本、Web版本等,尤其隨著電子出版時代來臨,數位化資料不管在複製、編輯、傳布上皆較傳統出版來得便利,將同樣的資訊以各種不同的形式出版也變得更可行。如果以HTML作為電子出版的資料格式,設定不同的呈現格式,如標題字體的大小、條列(lists)與表格的使用等,就能產生不同的Web版本,如果列印出來就是相對應的印刷版本,但由於HTML文件的資料內容

22、與呈現外觀是結合在一起,如果原始文件的內容有所改變的話,所有不同形式的版本全部都要跟著轉換,這道轉換的程序必須耗費不少的人力與時間。如果採用SGML作為電子出版的資料格式,由於資料內容與呈現外觀是分開處理,因此可以避免掉因原始文件內容改變而造成所有的版本都必須轉換的問題。3. 資料交換的限制:由於Web的普及,上網人口不斷增加,使得Web成為許多企業組織交換資料最理想的場所,但由於HTML的標籤集是固定的,且這些標籤大都屬於呈現導向的標籤,利用HTML作為資料交換的格式,很難對每一項所要交換的資料作清楚的描述。例如:有一家網路書店想要透過Web從出版商那裡取得一些新出版書籍的書目資料,並希望把

23、這些資料自動轉入自己的資料庫中,再動態地把新書資訊呈現在網站上,書目資料包括了作者、書名、出版社、ISBN.等欄位,以HTML標籤來標示這些書目資料,並沒有辦法逐一標示每個欄位,通常是把它包裝成表格的形式,以利於瀏覽,但如此一來卻沒有辦法利用程式將HTML中的書目資料轉入資料庫中,因為程式沒法分辨HTML檔中哪一段資訊是作者、哪一段資訊是書名.,就算出版商以SGML來儲存書目資料,清楚地描述每一個書目資料的欄位,但一旦要透過Web傳送,將SGML轉成HTML後,這些書目資料的欄位結構就無法存在了。4. 自動文件處理的限制:自動文件處理可節省人力操作的成本,降低人工輸入的錯誤,改善整體作業流程的

24、品質,並提高文件傳遞的速度。透過Web有許多的文件處理流程事實上可以被自動化,尤其在Intranet或Extranet若能將資料庫中的資料轉出後作自動處理,或文件經過自動處理後直接轉入資料庫,將能大幅提高效率。目前在Web上一些表單應用程式就是自動文件處理簡單應用,如有些線上問卷系統或線上投票系統,使用者將填完的問卷資料直接傳入伺服端的資料庫後,可以直接即時讀取資料庫的統計結果。由於HTML的標籤集是固定的,而這些標籤大都屬於呈現導向的標籤,因此HTML文件所能做的自動化處理事實上有很大的限制。所有文件處理高度自動化的流程,都必須透過統一的資料格式,而且這個資料格式必須能攜帶豐富的內容語義,從

25、這個角度來說HTML並不是一種適合作自動文件處理的資料格式。5. 無法支援較精確的查詢:目前在Web上使用者可以透過搜尋引擎(search engine)所提供的關鍵詞查詢(keyword search)來尋找相關的資訊,但由於目前Web上的資訊不斷增加,使得搜尋引擎的查詢結果往往會找到太多的資訊,而這些資訊又不一定能符合自己的資訊需求,往往使用者花在過濾出所需資訊的時間,會超過真正去看這些資訊的時間。搜尋引擎的準確率(precision rate)不高是因為的所用的查詢模式是對網頁進行全文檢索,雖然也可以將搜尋的目標限制在HTML文件的Title部分來提高準確率,但這樣又會降低查詢的回收率(

26、recall rate)。一個較好的辦法是提供可以指定內容(content-specific)的標籤,例如: 莊子 與 莊子 便有所區分,如此一來查詢時便可做較精確的限定,其效果有如欄位化查詢一般,不過HTML並無法讓網頁製作者自行定義可以指定內容語義的標籤,XML將能解決這個問題。6. HTML的不斷修訂造成了許多網站維護的額外工作:由於HTML是一個演進中的標準,每當HTML的標籤集不能滿足需求時,W3C就會為HTML加入新的標籤,推出新的HTML版本。從HTML 2.0到HTML 3.2,再到HTML 4.0,每當新的HTML版本推出,一些必須維護大量HTML文件的單位就得重新回頭檢視這

27、些舊版的HTML文件,看看有沒有需要重新標示文件。除了W3C會以官方立場身分修訂HTML外,瀏覽器大廠Microsoft以及Netscape也會伴隨著新版的瀏覽器推出自己的HTML延伸標準,而兩家廠商推出的延伸標準又不完全相容,對於許多網站維護人員來說,每當有新版的瀏覽器問世,就代表著可能又要對部分的網頁重新標示。有些組織為了徹底避免重新標示文件的困擾,乾脆決定採用SGML來標示文件,再把SGML轉換成HTML,因為將SGML轉成HTML只要透過轉換程式批次進行並不需花費大多資源,但若要重新標示成千上萬的HTML網頁就工程浩大了。伍、XML XML是W3C在1996年底提出的標準,它是從SGM

28、L衍生出來的簡化格式,也是一種元語言(meta-language),可以用來定義任何一種新的標示語言。XML的制定是為了補足HTML的不完美,使得在Web上能夠傳輸、處理各類複雜的文件,它去除了SGML複雜不常用及不利於在Web傳送的選項功能,讓使用者可以很容易地定義屬於自己的文件型態,程式設計師也能在更短的時間開發XML相關應用程式(註23)。XML1.0 Recommendation已於1998年2月公佈,相關標準目前仍在發展之中,XML的發展獲得了各界的支持,其中包括了Sun Microsystems, Microsoft, Netscape, Adobe, ArborText.等軟體大

29、廠的背書(註24)。1、 XML的發展背景: XML的發展背景主要是因為HTML的諸多限制已經影響了WWW的發展,HTML的限制在前面已經介紹過了,XML的發展成員大都對SGML及結構化的資訊(structured information)有相當豐富的應用經驗,他們相信引進SGML技術,能夠彌補HTML的不足,對WWW的發展能有以下幾個方面的貢獻(註25):1. 電子資料交換(EDI):結構化資訊的一個主要應用是資料交換,不同的領域可以針對領域的特性制定共同的資訊內容模型(content model),並以這個共同的內容模型來標示資訊,如此可以促使同領域的資訊可以更容易且更有效率地交換,這個共

30、同的內容模型,我們稱之為DTD。無疑地,Web是理想的電子資料交換的媒介,但HTML並非理想的資料交換格式,也難以充分地表現各種資訊內容模型與語意結構,而XML所要提供的正是一套可以在Web上承載各種結構化資訊的框架。2. 與Java技術更緊密結合:Java技術的出現使得瀏覽器能成為通用的應用系統平台,但HTML固定的標籤集及不擅長描述語義的特性,使得Java程式沒有太大的發揮空間,而XML正好可以給予Java程式大顯身手的環境,以XML作為各種結構化資訊的標準格式,搭配上Java程式,可以使得應用程式大部分的運算得以在客戶端執行,這和目前大部分的Web-based應用程式主要透過伺服端的CG

31、I scripts來完成大部分的運算是相反的模式。藉著XML與Java技術的結合,將應用程式的運算從伺服端移到客戶端來,有助於降低網路的流量與增加網路的速度。3. 攜帶平台獨立(platform-independent)資訊:HTML與XML的始祖SGML提供了一套能夠指定資訊的結構與語義的語法規則,而且具備了平台獨立性。不像Microsoft的RTF、Adobe的PostScript以及其他專屬性的文件格式,SGML所提供的是一套具備平台獨立性與系統獨立性的語法規則。2、 XML的設計目標 根據XML 1.0 Recommendation(註26),XML的設計目標如下:1. XML將能直接

32、在Internet上使用。2. XML將支援各種不同的應用。3. XML將與SGML相容。4. 處理XML文件的程式能很容易被開發。5. XML的選項功能將保持最少,最好是零。6. XML文件應該是易讀且清晰的。7. XML的設計應該很快就緒。8. XML的設計將是正式且簡潔的。9. XML文件將很容易被產生。10. 精簡對於XML標示來說是最不重要的。(HTML的標示便盡求精簡)三、XML與SGML主要的不同(註27):1. DTD不是必備的:要處理SGML文件必須要有DTD,而對於XML文件而言,DTD不是必要的。為了要使XML文件在處理上不需透過DTD,XML文件必須遵守更嚴謹的語法規則。對於XML應用程式而言,沒有DTD的好處之一是可以節省下載DTD所用掉

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1