汉文化资料库不同层次的实用要求.docx

资源描述

汉文化资料库不同层次的实用要求.docx

《汉文化资料库不同层次的实用要求.docx》由会员分享，可在线阅读，更多相关《汉文化资料库不同层次的实用要求.docx（6页珍藏版）》请在冰豆网上搜索。

汉文化资料库不同层次的实用要求.docx

汉文化资料库不同层次的实用要求

　　汉文化资料库，是一个非常大的概念。

它可以是包括诸如文字的、图像的、声音的等等各种表现形式的、古往今来的所有汉文化资料在内。

我这里仅就古文献这一层面，并从一名使用者的角度来谈一点不同层次实用要求的意见。

　　　一

　　就目前我看到的已制作出来的汉文化古文献数字化资料，数量已不在少数。

当然与全部传世古文献相比，也还只是很小一部分。

然仅就这些已制作出的古文献数字化资料来看，其中有不少重复的制作，也有不少并不完全符合该古文献实际功能和使用者需要的制作。

这也许是由于现在市场经济机制的关系，互相封锁，互相竞争，有些重复很难避免。

但更多的原因可能是制作者对各类不同性质古籍的使用价值了解不够所造成的。

这里人力、物力、财力的浪费是非常可惜的。

因此，如何从整体上来规划汉文化古文献资料库的建设，应当说已经提到日程上来了。

　　这里，我想就目前已制作成成品流通、销售的部分大部头丛书类古籍，作一些简单的评析。

这些大部头丛书类古籍（包括传世的和新编的），也正是眼下制作汉文化数字资料库的一个热点。

　　这类古籍数据库中面世最早的大概是《古今图书集成》，接着是《二十四史》（或加《清史稿》为《二十五史》）、正续《资治通鉴》、《全唐诗》等，再下来便是部帙巨大的《四库全书》、《四部丛刊》等。

其他，如“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中，也提供了大量的古籍丛书类的数据资料库。

如：

《四库全书存目丛书》、《四库全书禁毁书丛刊》、《续修四库全书》、《四库未收书辑刊》、《丛书集成》、《二十四史订补》、《二十五别史》、《二十五史三编》、《中国野史集成》、《中国野史集成续编》、《北京图书馆藏珍本年谱丛刊》、《北京大学图书馆藏稿本丛书》、《北京大学图书馆藏善本医书》、《善本戏曲丛刊》、《明清抄本孤本戏曲丛刊》、《古本小说丛刊》等等，都是部头大、史料价值相当高的原始文献。

上述电子文献中，像《二十五史》、《全唐诗》、《四库全书》等，还先后出了好几种版本。

　　此外，佛教经典文献的电子化进程，也是十分值得人们注目的。

除了散见的单本佛教经典外，现在可以看到的制作成电子数据库的整部大藏经有：

《佛梅大藏经》、《大正藏》（1—55卷、85卷）、《中华大藏经》、《永乐北藏》、《龙藏》、《高丽藏》，以及即将面世的《佛光大藏经》等。

道教经典总集《道藏》和《藏外道书》也已有图像版在“北京大学图书馆与超星公司超星数字图书馆合作推出古籍专题图书馆”中流通。

　　在这些数据库中，大部分只是图像数据，一部分是电子文本数据（如《二十五史》、正续《资治通鉴》、《全唐诗》、《佛梅大藏经》、《大正藏》等），再一部分是图像数据与文本数据对应合成（如《四库全书》、《四部丛刊》、《高丽藏》等）。

其中技术表现手段，互有短长，各有特色。

如果从制作质量（主要从图像清晰、文字校对质量、缺字处理和解决等方面来衡量）和技术表现手段（主要从系统兼容、浏览界面、检索技术、显示速度等方面来衡量）来比较一下的话，有两件作品值得提出一讲。

一是由北京书同文数字化技术有限公司制作的电子版《四部丛刊》，一是由台湾中华佛学研究所制作的电子版《大正藏》〔CBETA电子佛典（大正版）〕。

　　这两部作品从制作质量方面来讲，都是上乘的，文本校对精细，缺字的解决也比较完善。

如，《四部丛刊》是用造字和图像字配合，直接显示在文本中；《大正藏》则全部制作成图像字，而在文本中则以组字形式（按一定规则组成）表达。

这样在纯文本中缺字完全以组字形式出现，人们据此可构思出此字字形来，而在超文本或Word文本中，则可通过点击组字部分，连结显示该图像字。

再有《四部丛刊》中的原书图像也是相当清晰的。

　　再从技术表现手段方面来讲，这两件作品也都相当优秀。

《四部丛刊》设计了相当美观的浏览界面，电子文本的页面设计得与原书的页面基本一样，每页的行数和每行的字数，乃至双行小注，都一一对应。

（按，这里说“基本一样”是以比较苛刻的要求来说的，因为虽说每一页面都能做到行数和每行的字数完全对应，但其中有相当多的页面在处理上还比较粗糙，字体大小变换不当，致使每行字填不满本行的空间，损害了页面的统一与美观）而且，电子文本页与原书图像页之间的连接，一点转换，非常方便，使得使用者在对电子文本产生疑问时，马上就可以调出原书加以核对。

这对供研究使用，特别是古籍校勘使用的电子资料库来说，是一项非常重要的内容和功能。

本书的检索功能也是相当完美的，书名、作者名、任意字词的检索都极其方便，而且可以快速将检索条目提列出来，给出统计数，并当点击某一条目时，又能迅速连接显示该条目所在之页面。

然本书在技术上最大的突破点，是在它的超平台通用性，它可以在英文Windows、繁体中文Windows和简体中文Windows系统上通用，更关键的通用性是它突破了由于输入简、繁体（无论是GBK码繁体还是BTG5码繁体）汉字之间的不相容给检索带来的麻烦，实现了无论输入何种内码繁、简体汉字，它都能自动识别、转换，检索出你所要求的字词条目。

目前，不同内码的汉文资料库在不同汉字系统中的显示问题，相对来讲已经不是很大的问题了。

然在检索方面用不同内码输入，造成不同汉字系统之间无法实现检索，则还是一个严重的问题。

所以《四部丛刊》系统在这方面的突破，把不同内码的汉文资料库在不同汉字系统中的应用，变成了现实。

　　《大正藏》在技术表现方面，根据不同使用者的不同需要，通过几种不同层次的电子文本版本来予以体现。

它总共提供了6套版本，即：

XML版（纯文字档，XML标记）、普及版（一般文字档）、APP版（“行末句点”格式之文字档）、RTF版（RichText格式，可在WORD或是WORDPAD中浏览）、HTMLHe1p版（具有目录、全文检索多功能）、HTML版（可以直接使用网络浏览器阅读）。

使用者可以根据自己的需要来选择，或再一次开发。

它在技术上的处理是考虑得非常细致的。

如它在普及版和APP版中，在每行行首都注明了册数、经文编号、页码、栏位、行数等信息，方便读者复核。

又如，在HTMLHe1p版中，页面处理上的特点是，首先以大正藏的栏位为基准，每一栏处理成一页显示，以清眉目；其次为消除使用者来回翻页的麻烦与检索的方便，设计者将每页的最后二行重现在的前面，并以蓝色字体显示。

同时，这一版本还提供了线上佛学词典（两部），极为方便周到。

　　从以上所列的成果看，汉文化电子资料库的技术表现手段和形式，已经基本成熟了，有些还达到了相当高的水平。

当然如果要精益求精，则还有许多技术手段有待提高和完善。

从总体上来讲，我认为，目前汉字古文献的电子化工作中迫切需要解决的有三个问题：

一是字库（字符集）问题，这是一个极大的专门问题，本文暂且不谈。

二是文本的准确性和可靠性问题，什么时候我们的古籍电子文本也能在学术论着中被引用，成为一个被承认的版本，这才能真正体现出电子资料库存在的价值和意义。

三是资料库的分类分层次的问题，这也是本文要着重讨论的问题。

　　二

　　作为一名使用者，我认为汉文化古文献资料库，按照文献自身的性质、功能，使用者不同的使用目的、要求，以及面对的不同使用对象等等，应当对古文献资料库规划出一个比较合乎实际又能满足各方要求的不同层次的资料库。

在我们的汉文化资料库中，有一些是供阅读用的（包括一般读者的阅读以及专业工作者的阅读），更多的是供专门研究使用的。

　　就以上所举的一些丛书类古籍来说，像《二十五史》等既是供阅读，又是供研究的，所以既需要有电子文本的版本，也需要有数字图像的版本。

记得1998年出了几种电子图像版的《二十五史》，现在好像都销声匿迹了，其实这些电子版本对专门研究还是很有用的。

而像《四库全书》和《四部丛刊》一类书，说实在的主要不是供阅读的，而是供做专门研究参考用的。

所以，是否需要全部做成电子文本版本是可以研究的。

因为这两部丛书在今天来讲，它的主要价值是在版本上，而其中大量需要经常阅读的书，则都有后人经过校勘、标点、注释的整理本，这些才是现在需要的阅读本。

需要声明的是，我没有否定现在已经问世的这两部作品的意思，相反我是高度评价这两部作品所取得的成绩。

我之所以提出这个意见，主要是供以后在做类似的古籍电子版本时作参考。

因此，如果在制作汉文化资料库时，按照文献自身的性质、功能，使用者不同的使用目的、要求，以及面对的不同使用对象等等，对古文献资料库规划出一个不同层次的资料库，将可收到事半功倍的效果。

　　根据以上想法，我初步设想能否规划出以下几个层次的古文献资料库：

　　一是“版本库”，二是“专题库”，三是“普及库”。

前两个库主要供专业研究者使用，后一个库用来向大众传播优秀传统文化使用。

以下分别具体说明一下。

　　关于“版本库”

　　“版本库”的功能，从整体上来讲，主要是为了保存和流通现存的汉文古籍。

　　根据不完全统计，我国现存古籍（辛亥革命前刊印者）约有十余万种。

其中一些珍贵善本，都是历经沧桑才得以保存至今的。

目前国内图书馆，不仅对善本书严格限制借阅，而且大部分图书馆把一般的古籍线装书也列入了只能在馆内阅览，而不得借出的范围。

这一方面说明我们对古籍保护的重视，但同时也就给阅读和研究带来了很大的不方便。

古籍图书终究是要被人们使用才有价值，使用者越多，说明它的价值越高。

古籍图书保存得再好，如果不让人使用，或者使用限制极多，它的价值就会大打折扣。

纸质古籍的保存有许多条件的要求，而随意流通对纸质古籍的损坏又极其严重，所以图书馆采取的措施是可以理解的。

那么如何解决这个矛盾呢?

数字化技术的发展，给我们带来了解决这一矛盾的希望。

我们可以通过扫描把这些古籍转换成数码图像，把纸质古籍变成电子图像版本，这样古籍流通借阅的问题也就迎刃而解了。

而这也是使用现代科技手段，尽可能地把留存至今的全部古籍文献保存下来，不至再为将来某些重要纸质古籍不幸毁坏不存而感到遗憾。

　　十余万种古籍都要做成电子图像版，工程确实浩大，需要很好规划，分步骤来做。

我想首先应当建立一个“珍稀孤本善本库”。

这是目前最迫切、最重要的。

　　据我所知，现在有些图书馆各自已经开始在做本馆所藏珍稀孤本善本的电子化处理的工作，这是很好的基础。

而现在是否可以整体地规划一下呢?

譬如，是否可以以前些年上海古籍出版社出版的5部（经、史、子、集、丛）古籍善本书目为基础，建立起一个“珍稀孤本善本库”?

这5部古籍善本书目，都是现存于全国各图书馆的，只要我们订出一个统一的规格和要求，然后由各图书馆分头去做，这样可以比较快地建立起“珍稀孤本善本库”的基本部分。

而这一库的建立，立刻可以把原来只是某图书馆独藏的珍本、孤本、善本，变成全国各图书馆都可流通借阅的珍本、孤本、善本了。

当然，上述5部古籍善本书目，远非完善，并未将现存所有珍本、孤本、善本搜罗殆尽，比如许多收藏在私人手中的珍本、孤本、善本就没有能包括在内。

以后可以不断地补充完善。

　　其次，建立一个“域外现存汉文古籍库”。

这也是非常需要和迫切的。

　　据不完全统计，目前流落域外的汉文古籍也不少于数万种，除去与国内现有重复者，其中也不乏国内久已佚失的珍本、孤本、善本。

这一部分珍贵的古籍要原本返回的可能性不大，但通过制作电子图像版本则还是可行的。

　　再次，建立一个“普通古籍库”。

尽可能地将现在尚留存于世的古籍制作成数据图像，把它们保存下来。

　　这部分古籍中，一部分也具有重要的版本价值，一部分则属于一般性的古籍保存。

这个库的数量大概是最大的，因此必须按古籍的史料价值，使用需求的频率，分批选目，分期制作入库。

其中重复的书和版本极差的书，可不必收入此库。

　　以上“版本库”的工作量是极大的，但技术上的要求则相对比较简单。

一般都只需要扫描图像清晰，再编写一个仿真翻页，如平时看线装书一样感觉的浏览程序即可。

　　总起来讲，“版本库”的建成和流通需要一定的时间，并且还有一个不断增补和完善的过程，或许也可以说永远没有一个完成的日子。

但是，相对的阶段性完成还是可以有的。

我想，即便仅完成了上面讲到的5部古籍善本书目中所收录的“珍稀孤本善本库”，并把它在全国图书馆中真正流通使用起来，那它将为我国传统文化研究工作提供极大的方便。

而且对促进图书馆服务的现代化，以及更好地保护原纸质古籍珍稀孤本善本，也都将起到积极的作用。

　　关于“专题库”

　　“专题库”的功能，从整体上来讲，主要是为专业研究提供各种汉文古籍原始资料。

　　“专题库”顾名思义就是要按各种专题来制作，如按照传统的经、史、子、集四部分类制作各种专题库，也可以按照现行学科分类。

如语言、文学、史学、哲学、宗教、经济、政治、法律等制作各种专题库。

当然，每一大类下还可以依次分出二级、三级……或某一级种各种并列的专题库来。

如哲学下又可按儒、墨、道、法、名、阴阳等学派来建专题库；也可按先秦、两汉、魏晋、隋唐、宋元明清、近代等断代来建专题库；也可按人物，如朱熹、王夫之等来建专题库；也可按着作，如《周易》、《老子》、《庄子》、《论语》、《孟子》等来建专题库。

同样，宗教类下又可分为佛教、道教两家来建库。

再如佛教，既可做各种版本大藏经，如《大正藏》的专题库；也可做某部经典，如《金刚经》的专题库；以及某一学派、某一宗派，及至某一高僧的专题库等等。

　　在各类各级专题库中，其实按照使用对象及其功能还可以分为两个层次，一类是普通专题库，一类是研究专题库。

　　所谓普通专题库，是指了解本学科或本专题所需要掌握的最基本的资料库。

相当于本学科本专题的一个必读书目。

所谓研究专题库，是指深入研究本学科本专题所需要的尽可能完备的资料库。

　　专题库的制作要求，将根据使用对象、使用要求和古籍本身价值等，作多种不同内容、形式上的组织和表达。

一般讲，普通专题库所选内容要精当，全部文献都应做成电子文本，外观要简洁朴实，有阅读纸质书的感觉；在应用上，则至少要有能方便地做各种检索的功能。

现在有许多电子书浏览器还有诸如做书签、标重点、写感想，乃至编讲稿等等的功能。

其实，这些功能的要求是因人而异的，有的人很喜欢，有的人则从不使用。

所以在保证基本功能的前提下，具体的应用程序的设计，可以多样化、个性化。

研究专题库的要求和设计，则应是内容尽可能完备，使研究这一专题的人在这个库中找到他所需要的原典资料、应用和表现方式，可以是多种形式的结合。

这里除了普通专题库的内容外，可以加进大量“版本库”中的原始资料，有些可保留版本库的简单形式，有些则需要配以电子文本，而且还要提供电子文本与原书数码图像页页对应的功能，以便研究者方便地核对原书。

　　关于“普及库”

　　“普及库”的功能，从整体上来讲，主要为各层次（不同年龄段，不同文化程度、不同职业、不同爱好等）一般读者了解和掌握传统文化提供丰富多彩、表现形式多样的各类最基本的汉文古籍读本。

这方面也已有许多成熟的作品可以借鉴，无须多说。

　　但有一点需要特别强调一下，由于“普及库”的功能主要是面向大众，起传统文化的普及和传播作用，所以它除了在形式上的美观、生动外，更要求内容上的准确和可靠，否则以讹传讹，将贻害无穷。

补充

　　由台湾财团法人印顺文教基金会发行的《印顺法师佛学着作集》版，也是一部值得特别提出一说的汉文专题资料库精品。

本数据库的主要内容是印顺法师的全部佛学着作，但它同时整合了台湾中华佛学研究所制作的Cbeta《大正藏》1—55和85卷中的普及本，以及丁福保的《佛学辞典》等内容。

在技术表现方面，它采用Accelon全文检索系统制作，功能相当强大，齐备、方便、快速。

一般研究所需要的检索功能，如全文字词检索（包括用and、or、not，以及万用字元替代检索等）、字（词）频统计（分别显示总数和各册数）、逐条显示（显示的长度和行数等可以自定义）、调阅全文等全部具备。

　　又，凡印顺法师着作中引用的佛典原文，主要的也都给出了连接，点击该处系统即会自动弹出一个新窗口，连接到相关的《大正藏》原典内容。

在阅读印顺法师着作或《大正藏》时，如遇到难解的名相，则只要点中它，系统立即会自动弹出一个新窗口，连接到《佛学辞典》相关的词条，以供参考。

该系统也提供了引用复制的功能，选取若干文字（预设9字以上，若9字以下则将自动连接至《佛学辞典》）后，便能自动储存于剪贴版上，然后可粘贴至任何文字编辑器上，更重要的是它同时会标出所选文字的出处（书名和页码）。

诸凡印顺法师着作中的各种图表，也能极方便地调出显示。

整个系统设计真是考虑得十分周到，使用也极为方便。

　　此外，该系统还有几个特点值得一提：

一是该系统基本上是一个绿色系统，装卸方便。

二是，该系统既可装在硬盘上使用，也可直接在光盘上运行。

三是该系统可运行于英文、日文、简体中文、繁体中文四种Windows98/NT/2000/XP系统平台上。

四是该系统有良好的扩充性，如辞典还可以添加，文本数据库也可以不断增加（从其说明中知道，原来还有《中国古典文学名着》一种）等等。

附录：

中文字符集问题

　　在现行的几套中文字符集中，在处理古典文献时都存在着这样那样的不足，有不少问题值得探讨。

现有中文字符集的情况

　　GB2312—80含6763汉字（全部简体）

　　GBK（CJK）含13345汉字（6763+6582〈扩展A〉）

　　（简、繁体重复、混用）

　　GB18030—2000含27484汉字（大字库，含6000多个藏、蒙、维字符）（同上）

　　ISO10646（）含70275汉字（超大字符集）（同上）

　　（现提供的方正宋体字库为65531汉字）

　　Big5含13000左右汉字（全部繁体）

　　此外，还有Big5的扩展，“汉字库”（含54000左右汉字）

　　日本的“今昔文字镜”（含100000左右汉字）（大量异体字，甲骨文、金文、越南汉字、梵文字体等）

　　以上几种字符集中GB2312、GBK和Big5是通用的，其余都需特别安装，而且输入法一般也只有内码区位法一种，很不方便。

　　在简体中文系统中，GBK已是通用的标准字符集。

但GBK是由GB2321扩充出来的，除了扩充一部分GB2321中没有的字外，相当部分是与GB2321字符集中简体字相对应的繁体字，并且扩充GB2321中没有的那部分字中，也有一些是繁简两存的。

因此，GBK字符集中至少存在以下几方面的问题：

一，繁简重复字以及部分异体字占去了数千个码位（据我粗略检查，至少有3000个左右）；二，输入法上繁简转换或选择的麻烦；三，最大的问题是，扩展部分的字中，大部分只有繁体而没有简体，这样在一篇简体写作的文章中，如果用到了扩展部分只有繁体的字，就会出现繁简混杂的现象（这种现象在古文献，或引用古文献写作的文章，用简体显示时最为明显），很不规范。

　　鉴于GBK字符集的通用性，以及汉字量的适中，能否考虑在现有GBK字符集的基础上，改造制作一个古籍专用的GBK字符集。

具体设想

　　一，全部为繁体字和通用规范字。

去掉重复的简体字和异体字（最多的如“剑”字，在GBK字符集中有繁简异体共7个之多：

“剑”、“剑”、“FDA1”、“FDA2”、“FDA3”、“FDA4”、“FDA5”），可以空出3000个左右的码位，再加上GBK字符集中原有的空码位（约1300个左右），这样至少可以再增加4000个左右的汉字，如果制作汉文资料库一律遵循使用通用规范字的话，改造后的GBK字符集应该够用的了。

　　二，为保持与原字符集的兼容性，改造的原则是尽量保持原字符的区位。

首先，GB2321部分和GBK扩充部分中为原来GB2321中没有的字，或是与GB2321中简体字对应的一对多的繁体字部分，全部按原区位不动，只把其中的简体字形改成繁体字形。

其次，增加部分的汉字，按原扩充部分编码原则按部首和笔画插入相应的区位中，个别部首增加的字多，原相应区位空位不够的话，再作特殊处理。

　　三，原GBK字符集中的符号区，所收符号不能满足古籍数据需要，需要增加（符号区的空位约有700个左右）。

如古籍中最常遇到的周易卦爻象，太极阴阳鱼，以及平仄韵符号，古乐谱符号等等。

　　四，按照改造后的、全部繁体字的GBK字符集，做一套相应的全部简体字的字库。

这样，把繁简之间的转换，变成如同字体之间的转换。

那么显示繁体时全是繁体，显示简体时全是简体，不会再有繁简混杂的现象。

　　五，输入法也要调整，输入为繁体，有些码位变化的字和新增加的字需要重新编写。

所以要求输入繁体，是为了保证转为简体时的准确性。

如输入简体，在转为繁体时会产生许多错误和麻烦（当然也是可以想一些办法来减少错误的）。

　　以上设想有些异想天开，也许不切实际。

但如能实现，对古籍数据的处理，我想是有其方便之处的。

如能再附加一个小程序，使古籍专用GBK字符集与原GBK字符集或Big5字符集之间在操作系统内能方便的更替调用，那么对沟通两岸汉文古籍数据库之间的交流，将更加方便。

展开阅读全文