14照诚关于佛典电子化问题的探索和思考Word文件下载.docx
《14照诚关于佛典电子化问题的探索和思考Word文件下载.docx》由会员分享,可在线阅读,更多相关《14照诚关于佛典电子化问题的探索和思考Word文件下载.docx(13页珍藏版)》请在冰豆网上搜索。
該研究會得到日本政府資金的支持,也得到日本印度學佛教學會的認可。
原典資料庫啟動的時間是1997年的6月17日,計畫用10年時間將日本《大正藏》1-85冊的全部經文,包含注文製成電子化全文本,並通過internet向世界公開;
85-100冊的圖像部和目錄部資料庫也將在之後被列入計畫。
就是說,在可預期的時間裏,另一項可以與海印寺電子版《高麗藏》媲美的宏偉工程將惠及國際佛教學術界。
在電子版大藏經製作的眾多組織中,我國臺灣地區的佛教學者更是做出了令世人矚目的成就。
早在1993年,臺灣的蕭鎮國先生就獨自主持了佛典的錄入工作,將《阿彌陀經》、《六祖壇經》、《地藏菩薩本願經》等十幾種佛典製作成電子文本。
在此基礎上,自1995年起,他又在內地深圳開始錄入日本《大正藏》,至1997年,完成《大正藏》前25冊的文本錄入,從而開臺灣佛教界製作電子版大藏經之先河。
之後,蕭先生提供了《大正藏》前25冊電子文本,授權臺灣大學佛學研究中心進行後續處理。
以恒清法師為代表的台大佛教研究中心,於1997年11月6日成立25T小組,將製作電子版《大正藏》的計畫正式提上日程。
緊接著,在恒清法師的奔走下,電子版《大正藏》的工作首先得到中華佛學研究所創辦人聖嚴法師的支持,中華佛學研究所在聖嚴法師的指示下,為電子版《大正藏》項目提供人力和財力等全方位的支援,實際上成為電子版《大正藏》的主辦方。
1998年2月15日,在“中華佛學研究所”、“北美印順導師基金會”的贊助下,“中華電子佛典協會”(CBETA)在臺北法鼓山安和分院成立,中華佛學研究所的副所長惠敏法師任主任委員,該所網路資訊室主任杜正民任總幹事,恒清法師任常委。
自此,電子版《大正藏》工程全面啟動。
CBETA的電子版《大正藏》事業,得到臺灣及日本、美國和大陸佛教界同行的廣泛協助,進展神速。
1999年12月舉行的第二次成果發佈會上,CBETA展示了已完成的1-32冊的成果;
至2001年4月完成1·
55冊及85冊的普及版光碟的製作,並在Internet上提供免費下載。
臺灣版《大正藏》光碟現已在海內外廣泛流傳,成為電子版大藏經最流行的版本。
到2007年2月,CBETA又完成了《卍續藏》文本的錄入。
應該說,電子佛典的事業不僅反映在電子版大藏經一個方面,如同早期日本花園大學國際禪學研究所的《電子達摩》那樣,在日本、美國及臺灣地區,這種電子佛典的活動不勝枚舉。
日本京都大學人文科學研究院在高田時雄的主持下,早在上世紀90年代初就開始了《大正藏》“史傳部”的電子化工作;
東京的三友健容則在立正大學建立了日蓮宗文獻資料庫;
駒澤大學的曹洞宗宗學研究所建立了曹洞宗宗學資料庫等等。
在美國,1993年沈家禎博士在紐約成立了佛教電腦諮詢庫功德會,他們經過10多年的努力,已經製作完成了十多種專集的光碟,包括地藏菩薩專集、觀世音菩薩專集等,他們將這一具有系列化的電子佛典總稱曰“藏經閣”,實際上是電子版大藏經的另一種形式。
總之,目前國際佛典電子化事業的現狀,正如王雷泉教授在其文章中所說的那樣,已經馳入了“國際資訊高速公路”,正在一日千里地向前發展,尤其是佛教大藏經的電子化已取得了突破性的成就。
相對而言,我國大陸的佛典電子化工作起步較晚,但也在奮起追趕。
面對國際佛典電子化的大潮流,我國大陸的佛教學術界在佛教文獻的整理方面,尤其是佛教大藏經的普及方面也在加快步伐。
一方面,自上世紀90年代以來,我國佛教界、學術界及出版界以空前的速度和巨額的資金投入,將我國現存的大藏經珍貴版本如房山石經、《初刻南藏》、《永樂北藏》、清《龍藏》及民國年間的《頻伽藏》等影印出版,以仿原版形式影印的明《嘉興藏》也已面世;
加上此間已被境內外出版商和佛教寺院多次翻印的日本《卍字續藏》、《大正藏》及《高麗藏》等,那種在上世紀90年代以前大藏經一部難求的時代已成為歷史。
另一方面,佛典電子化已引起大陸學術界的特別關注。
早在10年前,大陸的佛教界、學術界及資訊部門就有過一次大型的聚會,共商編輯電子版《中華藏》之事,只是因緣尚未成熟,故而雖然開了研討會,但會後卻沒有展開具體實踐。
然而,在那之後,我國大陸的佛典電子化工作卻在默默無聞中向前推進。
在上海,復旦大學的王雷泉教授一直在為打造佛典電子化的中國國產車而奔走呐喊,也一直在為建立大陸學者佛教論文網而不懈地努力著。
在西安,以陝西師大吳言生教授為負責人的工作小組,經過多年的努力,將臺灣CBETA的大五碼(BIG5)成功地進行了轉換,並對電子版《大正藏》文本進行了深度加工,解決了原《大正藏》文本中存在的缺字缺圖問題,並提高了檢索的功能。
同時,吳言生小組正在建立迄今為止“世界上最大的禪宗典籍全文資料庫”(《禪宗典籍大全》),該庫入藏的全部典籍均加以新式標點,以GBK碼為基本編碼,提供簡繁兩種字體的文本。
在杭州,中華佛典寶庫網站曾用自己的軟體技術支援臺灣CBETA完成了電子版《大正藏》;
同時他們自1998年起也開始了相當規模的佛典錄入工作。
目前最準確的大五碼(BIG5)與國標擴展碼(GBK)、簡化字與繁體字的轉碼軟體Textpro,電子佛學辭典FoDict,佛經流覽器軟體FoRead,專為佛典電子化錄入研發的菩提五筆輸入法等都是由中華佛典寶庫開發的。
在北京,類似的組織很多,這裏我要特別介紹一下以李家振先生為創辦人的民間佛教文化組織——北京古今慧海文化資訊交流中心。
慧海中心成立於1995年,其宗旨是從清理佛教資源的“家底”入手,進行佛教文獻資源及佛教藝術資源的電子化工作,並全面服務於中國佛教界和學術界的佛典電子化工程。
經過十餘年的努力,慧海中心的清“家底”工作已經取得了輝煌的成就,不僅建立了龐大的佛教文獻目錄系統,而且在佛教期刊、電子書、工具書、佛教全文資源、佛教多媒體等資源的收集整理上都取得了突破性進展。
目前,慧海的資源總量已達到4000多GB,慧海佛教資源庫的成果包括:
佛教文獻目錄資源(大藏經目錄、經錄、漢文大藏經校勘目錄、佛教典籍聯合目錄、近現代佛書目錄、佛教期刊目錄及全文),佛教全文資源(全部約50000多個檔,總計20億字以上,資源量4GB),佛教多媒體資源(擁有大量佛教藝術圖片、音頻、視頻資源),電子書資源(目前國內最大的佛教電子書系統),工具書資源(成熟資料約13萬餘條)
慧海中心經過十餘年的努力,不僅擁有豐富的佛教資訊資料,在技術平臺開發及專業團隊建設方面也具有相當的實力,在硬體設施上亦有了良好的基礎。
2004年—2005年,受海南三亞海上觀音基金會委託,慧海中心編輯製作了電子版《觀音寶典》,收錄涉及觀音的佛教典籍及其他文獻147種約200余萬字。
此前,上海龍華古寺與李家振先生就有過選擇一部最有價值的大藏經版本製作成電子文本的設想,通過《觀音寶典》這次成功的嘗試,我們獲得了佛典電子化的經驗與信心,決定正式開展大藏經電子化工作。
2006年4月,上海龍華古寺與慧海中心合作,正式啟動《趙城藏》電子化全文本專案,這是中國古版大藏經首次被製作成電子文本的宏大工程,也是彌補大陸佛教大藏經電子化空白的應時之舉。
二、《趙城藏》電子文本工程的意義及目標
電子版《高麗藏》和《大正藏》的成功製作是國際佛典電子化事業中具有里程碑意義的事件,它對佛教及佛教學術事業的發展都會產生深遠的影響:
①佛教大藏經的電子化從根本上改變了佛教大藏經流通的方式,過去好幾個書架才能裝下的一部大藏經印本,現在變成了一張直徑不足5寸的光碟,真正實現了大藏經在全球範圍內的普及應用,一如CBETA的宗旨所雲:
“讓任何所要閱藏的人都有機會如願以償。
”
②佛教大藏經的電子化已成為一種全新的佛教研究的手段和資料的源泉,使佛教研究者不必去圖書館就能在自己的電腦上實現閱藏的目的,並通過一定的檢索手段迅速獲得過去需要多年積累才能獲得的佛典資料。
然而,漢文大藏經版本眾多,《高麗藏》、《大正藏》只不過是它們中間的兩種,而且又都是國外的版本。
它們既不能代表所有的大藏經版本,就佛教原典資料來說,其局限性也非常明顯。
因此,我們只能說,電子版《高麗藏》、《大正藏》已開風氣之先,意義重大,但大藏經電子化的事業還任重道遠。
尤其是在版本的比對上,比《高麗藏》、《大正藏》更古老、更珍貴、更有價值的大藏經版本還有很多,在資訊時代的今天,它們都應該實現電子化。
大家知道,我國的大藏經史可上溯到南北朝時代的寫本“一切經”及隋唐時代的官寫本大藏經,但這些寫本大藏經如今已無一部實物存世,因此,我們現在所講的佛教大藏經,是指始于北宋初年開刻的我國第一部木刻本大藏經《開寶藏》,直到近代以來的鉛印本大藏經和影印本大藏經。
它們包括北宋的《開寶藏》,遼朝的《契丹藏》,金朝的《趙城藏》,兩宋間的《崇甯藏》、《毗盧藏》,南宋時期的《圓覺藏》、《資福藏》,宋元之間的《磧砂藏》,元朝的《普甯藏》、《元官版藏經》,明朝的《初刻南藏》、《永樂南藏》、《永樂北藏》、《嘉興藏》,清朝的《龍藏》,及近代以來的《頻伽藏》、《普慧藏》、《中華藏》(分大陸版和臺灣版)等。
這近20種大藏經中,除《開寶藏》、《契丹藏》及《元官版藏經》幾種基本散失外,都有被製作成電子版的理由,因為它們是不同時代雕印的大藏經版本,每種版本都有自己的特色。
其中尤其是《趙城藏》,在《開寶藏》基本散失的今天,它代表著現存大藏經中最古老的版本。
研究表明,金朝潞州人崔進之女法珍以斷臂募資在山西晉南發起,經三十年雕造而成的金藏,完全是《開寶藏》的覆刻藏。
早在上世紀30年代,蔣唯心在其《金藏雕印始末考》一文中就提出了這一論斷;
上世紀40年代,日本學者小野玄妙在《佛教經典總論》一書中,對蔣唯心的結論又作了進一步肯定,他說:
“我敢斷言金版大藏經即官版大藏(指《開寶藏》)之全幅。
”今天當我們進一步深入研究《趙城藏》時,不得不對蔣氏及日本學者小野玄妙的結論深感欽佩。
大量證據表明,《趙城藏》無論是版式還是內容,都全面反映了《開寶藏》的原貌,換句話說,《趙城藏》再現了《開寶藏》的全貌。
我國至清朝為止的十幾種刻本大藏經大體可分為四種類型,《開寶藏》、《趙城藏》及《開寶藏》的另一部覆刻藏《高麗藏》屬於一種類型,它們無疑代表著一種最古老的版本,《開寶藏》開刻的年代(約971年)比遼《契丹藏》(約983年)早了十幾年,比兩宋之際的《崇甯藏》(1080年)更是早了100多年。
《開寶藏》初刻本約在宋太宗太平興國八年(983年)前完成。
《開寶藏》初刻本是依據在四川成都流行的一種以《開元錄·
入藏錄》為目錄依據的寫本大藏經雕造的,全藏收經約1085部,5048卷,480帙。
其後至宋徽宗大觀二年(1108年)之前的百餘年間,又進行過三次增補,增補了北宋時期的新譯經,唐以前翻譯的未入藏經,以及這一時期宋朝皇帝敕命入藏的各類中國著述。
通過這3次增補,《開寶藏》的收經總數達到1560餘部、近7000卷的巨大規模,從而成為兩宋時期收錄經籍最多的一部大藏經。
這一情況從下列宋版藏經收經總數對照表中可一目了然。
宋版藏經收經總數對照表
大藏名稱
收經總部數
收經總卷數
開寶藏
約1565
約6962
契丹藏
約1414
約6054
崇甯藏
1451
6358
資福藏
1419
5913
磧砂藏
1518
6363
高麗藏
1524
6558
《開寶藏》如此豐富的內容被《趙城藏》無一遺漏地繼承下來,《開寶藏》雖然已基本散失,但《趙城藏》卻在被埋沒了700年後,於1933年意外地被發現了。
《趙城藏》在發現時,首先也是因為它豐富而獨有的內容引起佛教學術界的震驚和關注。
當時,發現者范成法師經過五個月的細心“檢閱”,清理出“各藏所無之經典竟有四十六種二百四十九卷之多”。
當他把這一情況“函電報告”上海及北京的佛學界“諸君”時,他們立即決定派人與廣勝寺僧人協商並訂立合同,將其影印傳世,知名居士葉恭綽“擇名曰《宋藏遺珍》”。
如上所說,我國大陸現存的較完整的任何一部大藏經都有理由也應該製作成電子版,但在有限的人才和資金的條件下,應該有一個輕重緩急的考慮,特別是要比較它們的影響力和學術價值,這樣《趙城藏》這部現存中國最古老的大藏經就成為我們製作電子版大藏經的首選版本。
我們選擇《趙城藏》製作電子版,還考慮到它在上世紀80年代以後因為大陸版《中華藏》的影印出版而幾乎被全部的公諸於世。
大家知道,《趙城藏》是稀世的珍本,30年代發現于山西趙城縣廣勝寺(今洪洞縣)。
抗日戰爭時期,經過八路軍戰士的搶救轉移,最後於1949年5月安全運交北平圖書館。
其後,《趙城藏》又經過韓占魁等四位裝裱師長達17年的修復,才得以完好地保存到今天,成為國家圖書館的鎮館之寶。
上世紀80年代初,為了編輯《中華藏》,北圖把《趙城藏》全部攝製成膠片,《中華藏》使用的就是這份母片複製的第一份底片洗印的《趙城藏》照片。
在《中華藏》編輯過程中,有專門的小組又對照片中的殘缺和漫漶之處,按照嚴格的程式進行了修補,使經文文字更加清晰和完整。
這種情況就為我們製作電子版《趙城藏》獲取原典資料提供了極大的便利。
目前,直接提取《趙城藏》原件幾乎是不可能的,那將是一個極其困難的請示過程。
我們的作法是依據蔣唯心整理的《廣勝寺大藏經簡目》,再參考其他相關資料,復原一部《趙城藏》目錄,依照這份目錄從《中華藏》掃描本中輯出一部《趙城藏》作為我們電子版的底本。
電子版《趙城藏》是一項複雜的工程,其最終成果將製作成四種版本,即標準版、豎排版、流通版和研究版。
我們將《趙城藏》全藏內容錄入電腦,盡可能忠實地保存原版的字形,保留原版的經名卷次、張數、千字文等小字標注;
錄入文本要與掃描本對校,完成文字校對三個校次,標點校對兩個校次,共計五個校次。
差錯率控制在萬分之一以下。
四個版式具體要求如下——
○標準版:
電子文本的文字、折行與原藏保持一致,製作成橫排本。
字形完全按照《趙城藏》原貌表現,字形檔裏沒有的字形,暫時用字形基本相同的異體字來代替。
標準版可以按字、詞、句檢索,檢索時輸入字形按國家規範字標準執行。
標準版加入版本標注、《金藏》刻版張數資訊等內容。
○豎排版:
電子文本版式採用分欄方式,最後製成PDF電子書,每頁三欄,每欄二十三行,每行十四字。
文字規範、檢索功能、校編資訊皆同標準版。
○流通版:
流通版去掉原藏折行,根據文意適當分段,使用橫排版式並加句讀。
文本字形遵循國家規範標準。
流通版將實現全文檢索功能,即輸入一個字、詞,就能檢索出全藏所有相關資訊。
流通版每部經書都有相應的內容提要。
流通版最後將結集為光碟,免費流通,與社會共用。
○研究版:
在標準版的基礎上,加入校注資訊,並說明諸本異文及判斷依據。
研究版也附上內容提要。
我們之所以推出標準版和豎排版,就是為了盡可能多地保留原藏資訊,實現“復原”趙城藏樣貌的目標,這兩個版本可以為相應的佛學專家與佛學機構提供方便。
《趙城藏》電子文本標準版、豎排版和流通版預期五年左右完成,研究版於八年之內完成。
電子版《趙城藏》工程自2006年4月啟動後,得到教界高僧、學界專家的廣泛支援;
2006年8月趙城藏網站正式開通。
一期成果結集於2006年10月,共收入般若部經典《大般若經》600卷,並製作免費流通光碟3000張,向全社會免費流通。
二期成果結集於2007年10月,共收入般若部全21部經典,並製作免費流通光碟3000張,向全社會免費流通。
三期成果結集於2008年12月,共收入寶積部、華嚴部、大集部所有三個部次的經典,共計420余萬字。
目前,《趙城藏》編輯部及分佈於全國各地的數百位志工都在努力工作,爭取如期實現目標。
三、《趙城藏》電子文本校編過程中的實踐和啟示
我們清楚地意識到,《趙城藏》電子文本的製作不僅是一項功德無量的宏大工程,同時也是一項涉及電腦技術、軟體發展、文字處理、傳統校對、組織聯絡、專案管理等多方面的系統工程。
可以這樣說,在我們啟動工作至今三年多的時間裏,我們是在不斷地克服困難、不斷地學習中摸索著前進。
電子版《趙城藏》的製作包含著三個不可缺少的環節,一是錄文,二是校對和斷句,三是檢索系統的設置。
第三個方面因工作剛開始啟動,還沒有成為工作的重心。
我們遇到的第一個問題就是錄文。
我們原以為對慧海中心來說這不應該成為問題,因為慧海在這方面已經有十餘年的經驗,我們擁有十幾位在電腦錄文崗位上工作了近10年的操作員,但實際情況卻出乎我們的意外,《趙城藏》原本中出現的大量手寫字、異體字、通假字、生僻字等都打不出來,因而使我們的錄文工作舉步維艱。
我們提出的第一個解決方案是:
將錄文過程中打不出來的字一律檢出存檔,製作成字表,然後轉換為規範體繁體字;
無法轉換的生僻字則採用造字或組字法處理。
但這種辦法不僅給錄入人員,也給之後的校對工作帶來麻煩,因為他們把握不好哪些是規範字,哪些是異體字、通假字。
最常見的字體如——若𠰥
;
為爲;
唯惟;
幷並併;
嗔瞋;
床牀;
睹覩;
妒妬;
淨淨;
爾尒;
掛掛罣;
秘祕;
煉鍊等。
這樣就使打出來的文字難於統一,而校對後文本的定稿難度也隨之加大。
在這種情況下,校對人員要求我們制定統一的校對標準。
2006年10月,經過反復研究之後,在慧海中心召開的一次專家研討會上統一了認識,最終確定了以原藏字形為標準的校對原則,錄文和修改也都遵循這一原則。
這樣,又回到了起點,所有的難題又集中在如何處理電腦無法錄入的那些字的問題上。
這時,我們得到了中華佛典寶庫網站在軟體技術方面的指導與幫助,我們採用了Unicode字形檔及寶庫專為佛典電子化錄入研發的菩提五筆輸入法。
Unicode最新字形檔配以菩提五筆輸入法,可以輸入75814個漢字字形,這就解決了我們錄文過程中的大部分問題。
過去無法錄入的異體字、俗體字、通假字以及一些奇形怪狀的字,現在基本上都能錄入電腦,如:
𢙣
𡧐
𦛁
𡧱
𨐫
𨚿
麞臰
丙𢘤
𡊬
𢱅
㦯𡰱
𣐈
𧴥
𠯣
囙㝎𧺫
蝅𠫤
𢇁
𣱵
但是,如同《高麗藏》、《大正藏》電子版製作過程中出現的情況一樣,《趙城藏》文本中仍有一些異體字和字形特殊的字形無法輸入,大致有以下四種情況:
1、字形與字形檔中的字稍有差異,或多一筆,或少一筆等,我們採取電腦能夠輸入、字形接近的字代替,如(第一行為原藏圖形,第二行為錄入字體):
原藏字形:
錄入字形:
𣪋
𢘤
䖏衆𢡖
虵洟芸𢫾
凡
2、字形特殊,無法用電腦輸入,但在字典中能找到相對應的通用字,就用工具書中查到的對應字來代替,如:
和兕叔兆再就
3、字形特殊,無法在字典中找到對應的通用字,我們就用原藏字形截圖來代替(標準版、豎排版),或以組字法處理(流通版),如:
4、原藏模糊或缺損處,字形難以辨識。
由專家組按照文意一起討論確定一個字來代替,以確保原藏經意圓滿流暢,如:
製作《趙城藏》電子文本,疑難字問題給我們帶來很大困擾,同時也給我們帶來不小的收穫。
製作過程中遇到無法輸出的字形,我們會隨時記錄該字在原稿中的具體位置(如出自哪部經書,具體位於第幾卷、第幾頁、第幾欄、第幾個字等),便於日後查核。
同時,我們會查閱各種辭典與工具書,儘量找到與該字對應的通用字,也一起記錄下來,並製成試算表。
最重要的是,每個字在原藏中的不同字形都能集中反映出來。
暫時無法輸入的字形,截取原藏圖形記錄下來,避免了抄寫時的錯誤和變形,而且更能反映字形原貌。
經過三年多的積累,我們的疑難字表內容已經相當豐富,其中包括疑難字的截圖,在原藏中的位置,以及它所對應的通用字等。
這份字表可以按讀音或輸入法排序。
目前我們已經收錄2270個疑難字。
從忠實反映原藏字形的標準版轉換成流通版,也需要製作一張轉換字表,我們將錄入字形與標準字形一一對應,列在字表之中,用程式來完成轉換。
此外,為了在標準版與豎排版中實現全文檢索目標,我們還需要製作一張對應字表:
《趙城藏》原藏同一字可能有多種寫法,比如“舍”字,原藏中或作“舍”,或作“舎”;
如“爲”字,或作“爲”,或作“為”;
如“隱”字,或作“隱”,或作“隠”,或作“𨼆
”;
如“貌”字,或作“貌”,或作“皃”,或作“𧳖
”等。
在檢索時,輸入國家規範字體(舍、爲、隱、貌),就能檢索出這個字不同寫法(舍、舎;
爲、為;
隱、隠、𨼆
貌、皃、𧳖
)的全部資訊。
這三張字表是《趙城藏》電子化工作的附帶成果,為藏經研究專家和文字學家的研究提供了版本依據,也為製作漢字統一編碼的機構提供了準確的造字依據。
第二個問題是校對和斷句。
如上所述,正因為在處理錄文中缺字這個最關鍵的問題上,我們曾有過規範化的方案,使校對工作也隨之走了一段彎路。
在統一認識,確定以原藏字形為標準的校對原則後,我們對校對者就只有一個要求:
即以《趙城藏》掃描本為標準,在錄入文本上標出一切與掃描本不相符合的內容,包括不同的字形,錄錯的字詞及其他符號。
我們的目標是,經過三個校次,使文本與掃描本達到一致,復原《趙城藏》原藏樣貌。
五個校次的工作分別由不同的校對者承擔。
承擔初校者中有招聘的專門校對人員,但多數是在網上結交的熱心於弘傳佛法的志工,他們分佈於全國各地,已經形