嘉圖科技:數字化激活古籍生命力
摘要:古籍數字化將古老的文化和現代技術很好地結合了起來,是新形勢下中國古籍管理的重要方式。數字化古籍具有容量巨大、檢索便捷多樣、便于永久保存的特點,在網絡環境下,實施古籍數字化具有重要的意義
中國經濟導報 中國發展網記者楊虹
中國古籍不僅是中國的偉大文化遺產,也是世界文學、歷史、哲學與科學技術寶庫的一部分,鑒于中國是造紙和印刷的發明國,中國的古籍應該得到認真的研究和精心的維護,更由于它們巨大的文獻價值,中國的古籍應該得到最高水平的整理和編目。“古籍數字化將古老的文化和現代技術很好地結合了起來,是新形勢下中國古籍管理的重要方式。數字化古籍具有容量巨大、檢索便捷多樣、便于永久保存的特點,在網絡環境下,實施古籍數字化具有重要的意義。”江蘇嘉圖網絡科技股份有限公司(以下簡稱“嘉圖科技”)相關負責人表示,數字化激活了古籍的生命力。
組建專業古籍數字化團隊
古籍因其特殊性,原文繁體無斷句,異體字、生僻字等又不被通識,許多字還有各種不同的書寫方式,普通讀者閱讀困難,更無從談利用與研究。古籍數字化是傳統古籍整理與現代計算機技術相結合的產物。通曉計算機的人才并不難找,而精通古籍文獻知識的人才卻不是太多,既懂古籍又精通計算機的人才更是少之又少。古籍數字化是一項系統的工程,需要投入大量的人力、物力和財力。如何將文獻信息資源標準規范,利用人才將古籍活化、智能利用、知識關聯,以盡可能小的投入獲得最大的效益,包括社會效益及經濟效益,是一個值得思考的問題。
嘉圖科技自2005年開做古籍數字化工作,目前己持續18年。嘉圖科技逐漸組建了專業古籍數字化團隊(包括掃描團隊、錄入團隊、校對團隊、元數據著錄團隊等)。從最初的手工錄入到如今的自動識別、自動校對,嘉圖科技已解決了目前古籍數字化門坎高、效率低、錯誤率高、成本高,古籍里異體字、通假字、方言字的存在導致錄入困難,容易出錯等問題。目前主要客戶為蘇州圖書館、常州圖書館、常熟圖書館、昆山圖書館、嘉興圖書館等。
文獻資源數字化已成為一種趨勢
據嘉圖科技相關負責人介紹,隨著傳統文化熱持續升溫,計算機信息技術的日新月異,文獻資源數字化已成為一種趨勢。古籍數字化經歷了從無到有、從小到大的發展過程,目前已經建立了古籍書目數據庫和古籍全文數據庫。
一是古籍書目數據庫,我國比較早建立書目數據庫的有國家圖書館、南京圖書館、遼寧圖書館等。目前,擁有古籍館藏的圖書情報機構大部分都建立了古籍書目數據庫,提供古籍的收藏信息和版本情況,方便廣大讀者和研究學者對古籍的應用。而且,至少有幾十個圖書館網站能夠提供古籍書目檢索。
二是古籍全文數據庫,對古籍文字的全文進行數字化處理,直接為用戶提供古籍的全文閱讀或全文檢索以及相關統計分析等。它免去了用戶檢索書目數據庫后還得費力去獲取原文的麻煩,同時,由于全文檢索的實現,極大地提高了查全率。古籍全文數據庫是目前古籍數字化的主要形式,幾乎涉及中國古籍的各種類型,包括綜合類叢書,史書系列,編年體史書系列,文學古籍系列、經學、宗譜、家譜等各個方面。目前有綜合性古籍數據庫的,比如《四部叢刊》、文淵閣《四庫全書》、《十通》、《中國歷代石刻史料匯編》等,我們嘉圖也協助蘇州圖書館建立了具有蘇州特色的“蘇州圖書館古籍數據庫”。
古籍數字化對傳統學術研究意義重大
中華古籍浩如煙海,但我國到底現存多少古籍?長久以來都沒有明確的答案。即便權威的專家也只能給出一個籠統的回答——約26萬種、5000萬冊。據文化部發布《“十三五”時期全國古籍保護工作規劃》,提出到2020年全國古籍資源和保存狀況基本摸清,并將修復一批珍貴古籍。屆時全國完成古籍普查登記的古籍收藏機構的數量將達到2000家,珍藏古籍的修復數量達到350萬葉。從嚴格意義上的古籍整理來考察(即影印、標點、注釋、白話、評點、??焙洼嬝壳拔覈颜沓龅墓偶€不到總數的十分之一,其數量不超過12000種。如此巨大的體量,當然無法全部完成數字化,這是一個艱巨又漫長的工程。我們可以根據古籍的內容、性質、流傳情況等,從讀者的需求出發,采用不同的方法,或者建立古籍數據庫,或者進行古籍原文圖像復制,或者實現古籍圖文的數字化,或者實現古籍知識及關聯的數字化。
“然而這些都只是停留在數字信息的基本上,我們還將繼續挖掘古籍數字化對傳統學術研究的作用和影響。延伸國學研究者的記憶,提高研究效率,推進傳統學術研究走向定量分析和統計分析。”據嘉圖科技相關負責人告訴記者,古籍數字化有三個發展過程,即原生性保護——古籍修復、再生性保護——古籍數字化平臺、傳承性保護——古籍活化。
自2007年,在嘉圖科技古籍數字化平臺與服務的支持下,蘇州圖書館逐步推進并建設了“蘇州圖書館古籍數據庫”與“蘇州圖書館民國數據庫”。已建設數據庫包括地方志、名人、風俗、水利、人物志、園林志等蘇州古代地方文獻、館藏珍貴古籍、蘇州地區家譜以及蘇州文人別集等內容。作為首批國家歷史文化名城之一,蘇州擁有得天獨厚的優勢。2022年11月29日,蘇州古籍館作為全國首個地級市古籍館在蘇州圖書館揭牌。
全國首個地級市古籍館“蘇州古籍館”揭牌儀式
截至目前,嘉圖協助蘇州圖書館累計建設古籍和民國文獻數字化工作 120 萬頁左右(頁=半筒子葉),接近1500種類型。同時,在“原版原圖”保存古籍的基礎上,注入科技的新鮮血液,實現了遠程登錄、圖文對照數字化成品、全文檢索、繁簡字轉換等功能,為傳統學術專題研究與古籍閱讀提供強有力的支持,進一步推進了文化交流與共享。
蘇州圖書館成品案例:錯誤率萬分之五
創新古籍數字平臺,拉近讀者與古籍距離
嘉圖科技自主研發了創新的古籍數字平臺,以“精準OCR識別”“自動排版”“自動校對”降低古籍數字化加工人員專業性高的從業門檻,以古籍數據庫“支持移動端瀏覽”“影像全文檢索”“簡繁轉換”等獨特優勢拉近讀者與古籍的距離,實現古籍資源的充分共享與有效利用。例如,精準OCR識別:超強的OCR識別技術刻本識別率高達99%。自動校對與字庫示例:嘉圖古籍數字化平臺能自動標識出異體字、通假字以及識別過程中發現錯字。平臺會加載多個候選字,并顯示出該字各種寫法。工作人員只需點擊圖片標出的詞字,選擇確認即可。
古籍校對示例
支持移動端瀏覽:平臺支持多平臺的文獻瀏覽,除行業常見的PC端外,還新上線了移動端瀏覽模式,并增加了筆記、注解、修訂等功能。將古籍瀏覽行為落到普通讀者手中,實現隨時隨像閱讀普通電子書一樣“以我為主,為我所用”。
蘇州圖書館古籍數據庫頁面(手機端)
字段&全文檢索:為提高讀者獲取文獻的效率,嘉圖科技的古籍數字化平臺能提供字段檢索與全文檢索,即讀者不僅能按照古籍書名、作者、版本、年代等書目信息檢索,還能輸入任意關鍵詞,實現古籍庫內全文內容的快速鎖定與高亮,相關字段也支持多種組合。
全文檢索示例
影像化全文檢索:作為不少圖書館的首選,經過“古籍影像化”后的書庫雖以圖片形式呈現并供讀者瀏覽,但嘉圖科技的古籍數字化平臺也支持全文檢索功能,助力實現瀏覽的高效與便利。
簡繁轉換:有效降低如今年輕人的古籍閱讀障礙。
簡繁轉換示例
責任編輯:楊虹