9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

E時(shí)代的文史研究③︱?qū)W術(shù)檢索與文史考據(jù)

蘇芃 李旻
2020-07-04 10:18
來(lái)源:澎湃新聞
? 私家歷史 >
字號(hào)

因疫情影響,近半年來(lái)高校等研究單位的師生大都避疫在家,無(wú)法正常利用圖書(shū)館資源。自2020年4月起,由北京大學(xué)、南開(kāi)大學(xué)等高校青年學(xué)者發(fā)起的“文獻(xiàn)挖掘整理研究會(huì)”決定在線舉辦第三次文獻(xiàn)沙龍,以助力文史學(xué)者更好運(yùn)用線上資源以推進(jìn)研究。本次沙龍邀請(qǐng)北京大學(xué)(中文系、歷史系、信管系)、清華大學(xué)、復(fù)旦大學(xué)、南開(kāi)大學(xué)、臺(tái)灣“清華大學(xué)”、中華書(shū)局等單位的學(xué)者,圍繞“瘟疫時(shí)期的網(wǎng)絡(luò)資源”“學(xué)術(shù)檢索的過(guò)去現(xiàn)在和未來(lái)”“古典文獻(xiàn)資源的整合與導(dǎo)航”“中華書(shū)局的數(shù)字資源與使用”“史實(shí)數(shù)據(jù)的關(guān)系表達(dá)”六個(gè)議題展開(kāi)研討。

第二場(chǎng)對(duì)談“學(xué)術(shù)檢索的過(guò)去、現(xiàn)在和未來(lái)”由史睿(北京大學(xué)中古史研究中心副研究員)主持,與談嘉賓黃一農(nóng)(臺(tái)灣“中研院”院士、臺(tái)灣清華大學(xué)歷史所教授)、蘇芃(南京師范大學(xué)文學(xué)院教授)、李旻(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院講師)、劉姝然(北京大學(xué)信息管理系碩士研究生)參與研討,本文系此次對(duì)談的摘錄稿上篇。

蘇芃:我主要要講三方面的內(nèi)容。

第一個(gè)方面,我想講一下這篇文章,《他校時(shí)代的降臨——e時(shí)代漢語(yǔ)古籍校勘學(xué)探研》,這是很早以前寫(xiě)的,大概是在我讀博士的時(shí)候,圍繞《史記》做???,使用了一些數(shù)據(jù)庫(kù),有些體會(huì),寫(xiě)進(jìn)了博士論文里,后來(lái)又有拓展,在2011年發(fā)表出來(lái)。之后,公眾號(hào)“經(jīng)典古籍庫(kù)”(2016.10.1)也有轉(zhuǎn)發(fā),還有朋友陸續(xù)在跟我討論這個(gè)話題。為什么若干年后還有人去關(guān)注這樣一篇文章,可能是因?yàn)槲覀兊募夹g(shù)手段與方法一直沒(méi)有太大的變革。

這篇文章里的幾個(gè)基本要點(diǎn):

一是說(shuō)對(duì)于傳統(tǒng)的手段——對(duì)校、本校、他校,還有理校,在現(xiàn)有各種古籍?dāng)?shù)據(jù)庫(kù)的背景下,帶來(lái)最大變革的可能是他校。為什么呢?因?yàn)檫@一塊可以參照的文獻(xiàn)變得特別多。比如說(shuō)在他書(shū)中征引的,還有書(shū)籍與書(shū)籍之間,互見(jiàn)的這些段落,還有關(guān)聯(lián)的內(nèi)容,都特別的多。關(guān)于這一點(diǎn),我認(rèn)為能夠落實(shí)和突破的內(nèi)容,往往是可以得到確證之處,比如說(shuō)人名,比如說(shuō)地名,比如說(shuō)書(shū)名,比如說(shuō)和事件有關(guān)的材料,這都是具有確定指向的點(diǎn)。

比如說(shuō)時(shí)間上的一些節(jié)點(diǎn),如果在古籍出現(xiàn)了錯(cuò)訛分歧,我們可以在古籍庫(kù)中去求取相關(guān)資料,來(lái)獲得旁證,進(jìn)行考訂判斷。比如說(shuō)人名,《史記·魏世家》中的韓康子,司馬貞的《索隱》里注他名“虔”,有些版本里“虔”是作“虎”的。后來(lái)我們?nèi)ゲ檫@個(gè)人,他應(yīng)該是名“虎”,不止《魏世家》這一處,《六國(guó)年表》《韓世家》司馬貞也都有注,講他名“虎”,他書(shū)資料中《國(guó)語(yǔ)》《世本》也都有記載他名“虎”,所以通過(guò)這一組關(guān)聯(lián)的材料,可以求證出《魏世家》這兒的“虔”,它就是傳承中的錯(cuò)訛,司馬貞不會(huì)犯這個(gè)錯(cuò)。

再比如說(shuō)像書(shū)名,一個(gè)叫做《(雜字)解詁》的書(shū),結(jié)果在版本傳承中慢慢變化,最后書(shū)名《解詁》被錯(cuò)成了人名“師古”,通過(guò)檢索數(shù)據(jù)庫(kù),我們可以找到《隋書(shū)·經(jīng)籍志》就有著錄,《史記索隱》除此一處,別處還有徵引。就這些例子來(lái)看,我們現(xiàn)在能做的事有很多,在傳統(tǒng)的文獻(xiàn)研究方法之上,可以再通過(guò)數(shù)據(jù)庫(kù)去旁搜博采,在人物、事件、地理、官制等比較確定的方面獲得新證。

這是我多年前的一篇文章,這兩年上課的時(shí)候,我時(shí)常在想,在什么樣的地方,可以有新的拓展。比如說(shuō)《史記·高祖本紀(jì)》張守節(jié)《正義》引到《河圖》“帝劉季口角戴勝”的校勘,“口角戴勝”原本很難讀得懂,通過(guò)他校資料的檢索,我們找到《后漢書(shū)·班彪傳》李賢注引《河圖》作“日角戴勝”,“日”與“口”字只差一筆,卻讓人豁然開(kāi)朗,通過(guò)這種關(guān)聯(lián),特別是一些舊注當(dāng)中的關(guān)聯(lián),可以把一些歷史疑案搞清楚,我想這是對(duì)于??钡难由?。

關(guān)于傳統(tǒng)的校勘之中,在挖掘他校資料的這些環(huán)節(jié)之中,有海量材料可供檢索搜尋,這個(gè)時(shí)候,我們要到哪個(gè)地方去找這些東西,才能更加高效。這些材料,檢索結(jié)果中涉及的數(shù)量會(huì)很多,你怎么樣去排查篩選?這跟我們傳統(tǒng)的目錄學(xué)有關(guān)系,你首先要明白在什么書(shū)會(huì)跟這個(gè)書(shū)有關(guān)聯(lián),跟這段話有關(guān)聯(lián),跟這個(gè)詞語(yǔ)有關(guān)聯(lián),這樣能夠有效縮減工作量,就是說(shuō)怎么樣去找尋與待考問(wèn)題相關(guān)聯(lián)的文獻(xiàn),這是個(gè)目錄學(xué)的問(wèn)題。

再有一個(gè),我們面對(duì)檢索結(jié)果的時(shí)候,常常還要考慮到這里面可能會(huì)有一些錯(cuò)訛。本來(lái)這個(gè)數(shù)據(jù)庫(kù)在制作的時(shí)候,它里面可能就有一些文本上的錯(cuò)誤,它可能會(huì)有什么樣的錯(cuò)誤,你可能因?yàn)槭裁村e(cuò)誤而被誤導(dǎo),這也是需要思考的。

比如說(shuō)前段時(shí)間有一位原來(lái)聽(tīng)過(guò)我課的朋友熊少聰,現(xiàn)在中國(guó)社科院大學(xué)讀碩士,他聯(lián)系我說(shuō),在某書(shū)中檢索到一條很有價(jià)值的材料,可能和張守節(jié)有關(guān),張守節(jié)的《史記正義》很有名,是《史記》三家注之一,但是他的生平,一直很難完全搞清楚,連他是哪兒人都不知道。這位朋友發(fā)現(xiàn)在文獻(xiàn)中有個(gè)人也研究過(guò)《史記》,記載很詳實(shí),與歷史上的張守節(jié)仕宦經(jīng)歷也很像,而且可以知道是蘇州人。后來(lái)我們?nèi)ゲ榱艘幌略摃?shū)的不同版本,發(fā)現(xiàn)這段文字是有異文的,因?yàn)槌霈F(xiàn)了訛誤,所以被湮沒(méi)了。這說(shuō)明使用古籍?dāng)?shù)據(jù)庫(kù)檢索時(shí)還要注意版本學(xué)的問(wèn)題。

在此基礎(chǔ)上,我們反思借助數(shù)據(jù)庫(kù)從事文獻(xiàn)研究,某種意義上數(shù)據(jù)庫(kù)只是提供了大量的新材料,至于考證方法可能沒(méi)有多大的變化,而是我們挖掘新材料的方法上有了一個(gè)巨變。也就是說(shuō),我們可以把很多前人在閱讀這些古籍時(shí),不容易去讀到,或者被遮蔽的一些資料,很高效地找出來(lái)。原先的目錄學(xué)、版本學(xué)、??睂W(xué)知識(shí),還是缺一不可的,所以我對(duì)現(xiàn)在的數(shù)據(jù)檢索的看法,主要就在新材料挖掘這個(gè)方面,特別是對(duì)于我所從事的專業(yè),這是一個(gè)變革。這是我要講的第一個(gè)方面。

第二個(gè)方面的話題。我的研究和教學(xué)主要和先秦秦漢文獻(xiàn)有關(guān),和各種早期經(jīng)典有關(guān)。這個(gè)領(lǐng)域我覺(jué)得有個(gè)問(wèn)題亟需解決:我們至今都沒(méi)有一個(gè)可供大家征引的免費(fèi)的文本庫(kù)。比如說(shuō)我們論文中去引一段《論語(yǔ)》,往往還要去查對(duì)應(yīng)紙質(zhì)文獻(xiàn)的頁(yè)碼,還要去查是誰(shuí)注的《論語(yǔ)》里多少多少頁(yè),有我所引用的這段話。許多著名經(jīng)典都有這樣一個(gè)問(wèn)題,一旦涉及引文,常常要費(fèi)特別大的勁,比如在寫(xiě)完一篇論文之后,往往要專門(mén)花大力氣去查核、去校對(duì)。近年有了中華書(shū)局古聯(lián)公司開(kāi)發(fā)的“經(jīng)典古籍庫(kù)”,局面稍有轉(zhuǎn)變,但完全免費(fèi)又可信賴的經(jīng)典古籍電子文本,至今還沒(méi)有出現(xiàn)。關(guān)于這一點(diǎn),我一直都在倡議,我們應(yīng)該專門(mén)做一個(gè)中國(guó)古代經(jīng)典的文本數(shù)據(jù)庫(kù),起碼要把先秦秦漢時(shí)期的一些基本的典籍,我們的文化原典,做一個(gè)可供大家來(lái)征引的數(shù)據(jù)庫(kù),放在網(wǎng)上,隨時(shí)隨地在各種終端設(shè)備上都可以免費(fèi)使用,即便不帶注釋也可以,這樣不管是閱讀也好,寫(xiě)文章也好,還是在別的地方要引用也好,都會(huì)很便捷。這個(gè)庫(kù)如果做得好,可信度高,受眾廣,對(duì)于儒家經(jīng)典而言,甚至可以說(shuō)就是當(dāng)代的“石經(jīng)”。當(dāng)然這個(gè)最好是官方來(lái)做,才會(huì)具有權(quán)威性,易于推廣。

最后要講的,是關(guān)于民國(guó)學(xué)人的研究。我這幾天才修改完成一篇前年寫(xiě)的文章,是關(guān)于一個(gè)民國(guó)時(shí)期的人物。這個(gè)人物是民國(guó)初年出生,到改革開(kāi)放之后才去世,在文史領(lǐng)域有不少和他有關(guān)的書(shū),比如編纂《史記書(shū)錄》《括地志輯?!?,點(diǎn)校整理《元和郡縣圖志》《史記志疑》等,也是中華書(shū)局點(diǎn)校本《史記》的主要點(diǎn)校者之一,這人叫賀次君。

但是關(guān)于他的生平,我從多年前就特別好奇,文獻(xiàn)中沒(méi)有任何記載,很難搞清楚。之前中華書(shū)局重印了《史記書(shū)錄》,前言部分有些生平簡(jiǎn)介,那是我代筆來(lái)寫(xiě)的。你若去網(wǎng)上搜索,“百度百科”這些也有他的詞條,可都是說(shuō)他生平不詳,是顧頡剛弟子。后來(lái)我又通過(guò)各種數(shù)據(jù)庫(kù)去搜索,發(fā)現(xiàn)了一些跟他相關(guān)的信息。大概知道他在民國(guó)時(shí)期從過(guò)政,做過(guò)國(guó)民政府的官員,建國(guó)之后,因?yàn)橛袣v史問(wèn)題,他的生平是一片空白。后來(lái)我輾轉(zhuǎn)聯(lián)系上了賀先生唯一的女兒,賀先生生前很多事閉口不談,他們父女又相差了48歲,因此關(guān)于賀先生1949年以前的許多經(jīng)歷,他女兒也并不知情。今天我們很有幸,借助網(wǎng)絡(luò)獲得線索,去各方面搜求資料,可以基本搞清楚他一生的主要經(jīng)歷。

由于我搜出賀次君曾在民國(guó)時(shí)期從政的信息,于是想到去臺(tái)灣“國(guó)史館”查檢,很巧,正好有他的檔案,這個(gè)檔案是比較早的,是1946年之前的。檔案里還有一份他親筆填寫(xiě)的材料,他的某年做了什么事,什么職別,填得特別細(xì)致,且有他的簽名,還有他的印鑒。通過(guò)這份檔案可以知道1946年之前的他主要有哪些經(jīng)歷。另外,我們檢索這個(gè)人物,發(fā)現(xiàn)還有一些知名學(xué)者與他有關(guān)聯(lián),一個(gè)是錢(qián)穆,一個(gè)是顧頡剛,都是他的老師。我去查《顧頡剛?cè)沼洝?,果然其中多處提到了賀次君,多到有兩百多處,我把《顧頡剛?cè)沼洝穮⒄杖嗣饕艘槐椋奄R次君有關(guān)的部分細(xì)致讀了下來(lái)??梢哉f(shuō),這個(gè)發(fā)現(xiàn)過(guò)程是數(shù)字化檢索與傳統(tǒng)“索引”的有機(jī)結(jié)合,這大概也是我們的時(shí)代特點(diǎn)。

最近幾天,我在改這篇文章時(shí)候,又注意到一些之前沒(méi)留意的細(xì)節(jié)。在1949年之后,賀次君第一次出現(xiàn)在顧頡剛的日記里是在1954年的8月25日,顧頡剛22日才從上?;氐奖本?,23日才到中國(guó)科學(xué)院歷史研究所履職,兩天之后,他在日記中說(shuō)賀次君來(lái)長(zhǎng)談。又過(guò)了七天之后,顧先生去中華書(shū)局,去談什么呢?就是標(biāo)點(diǎn)《史記》三家注。在一個(gè)月之后,顧頡剛?cè)沼浻钟浀剑Wx賀次君所校點(diǎn)《史記·律書(shū)》。這樣來(lái)看,我覺(jué)得顧頡剛先生在1954年8月份回京的時(shí)候,很有可能就已經(jīng)有了點(diǎn)?!妒酚洝啡易⒌挠?jì)劃,甚至也許是政治任務(wù),所以他回來(lái)之后,僅過(guò)了兩三天就約老學(xué)生賀次君來(lái)家中長(zhǎng)談,一個(gè)月賀次君就交了《律書(shū)》的樣稿。這些細(xì)節(jié),比如顧頡剛奉調(diào)回京的事,我們通過(guò)查檢其他文獻(xiàn)進(jìn)行聯(lián)系比較,再結(jié)合與賀次君的交往看,有些歷史可能得到還原。

1954年顧頡剛?cè)沼洠ㄅ_(tái)灣聯(lián)經(jīng)出版事業(yè)股份有限公司,2007年)

我想民國(guó)時(shí)期這類(lèi)人物,有特別多的研究可做,現(xiàn)在條件非常好。通過(guò)檢索,我們能得到的材料會(huì)有很多,以賀次君為例,我搜索民國(guó)時(shí)期的報(bào)刊和其他選編的檔案資料,還有一些發(fā)現(xiàn),《1949年北平市軍管會(huì)接管北平文化機(jī)構(gòu)史料選》記載賀先生曾是國(guó)民黨CC系的成員,雖然這一說(shuō)法也無(wú)從查證了,但聯(lián)系他在新中國(guó)以后,沒(méi)有固定的工作,主要以協(xié)助顧頡剛先生整理古籍為業(yè)的經(jīng)歷,都可以串聯(lián)起來(lái)了。另外,還有他在民國(guó)時(shí)期,在1945年抗戰(zhàn)勝利后,具體職務(wù)是什么?他手填的檔案里并沒(méi)有,然而我們?cè)?945年11月20日《民言報(bào)》中,看到當(dāng)時(shí)的北平圖書(shū)雜志審查處成立,時(shí)任軍事委員會(huì)新聞檢查處處長(zhǎng)的賀次君兼任處長(zhǎng),當(dāng)日有這樣一條新聞。關(guān)于這樣一個(gè)人,我們好像是可以通過(guò)各個(gè)方面的資料把他盡量還原出來(lái),包括他的論文著述,我也專門(mén)做了梳理,整理出一個(gè)編年的著作目錄,在文中列了出來(lái)。近來(lái)讀到趙珩先生《二條十年》中的一些關(guān)于賀先生的回憶,又作了補(bǔ)充。所以民國(guó)這部分,借助如今的學(xué)術(shù)檢索條件,也有很多可以做的事兒,我舉這樣一個(gè)例子來(lái)說(shuō)明。

李旻:大多數(shù)人文學(xué)科的學(xué)者,他們以前在古代要把學(xué)問(wèn)做好,一定要記性好。換句話說(shuō),必須把書(shū)全都裝在腦子里。走入近代以來(lái),我們?cè)谖氖费芯恐虚_(kāi)始用各種各樣的技術(shù)方法來(lái)提高。

檢索的最初嘗試,是以“引得”的形式出現(xiàn)的,就是一個(gè)按單字來(lái)查詢?nèi)牡募堎|(zhì)索引。比如說(shuō)《論語(yǔ)引得》,把《論語(yǔ)》中出現(xiàn)的每一個(gè)字在第幾頁(yè),甚至是第幾行,列一個(gè)大的表格。如果這個(gè)字在《論語(yǔ)》中出現(xiàn)過(guò)幾千次,那么他就把幾千個(gè)位置都全部列出來(lái)。這樣的話,你可以通過(guò)每一個(gè)字,去查找它在書(shū)中具體哪個(gè)地方出現(xiàn),再進(jìn)一步,甚至把一些詞進(jìn)行正排或倒排進(jìn)行檢索。

哈佛燕京學(xué)社編《太平御覽引得》

對(duì)于這個(gè)工作,當(dāng)時(shí)還專門(mén)成立了“引得編輯處”,編輯各種文獻(xiàn)“引得”性質(zhì)的檢索資料。上世紀(jì)80年代計(jì)算機(jī)介入以后,單字索引在計(jì)算機(jī)里無(wú)非就是一個(gè)很簡(jiǎn)單的查找和搜索的工作,所以“引得”很快就沒(méi)用了,或者說(shuō)“引得”快速地被計(jì)算機(jī)的全文索引工具給替代了。

我今天想專門(mén)就索引的一些細(xì)節(jié)問(wèn)題,談?wù)勛约旱目捶ā?/p>

黃一農(nóng)教授提過(guò),作為專業(yè)的研究學(xué)者,希望能在一個(gè)數(shù)據(jù)庫(kù)里或者一個(gè)可檢索的范圍內(nèi),準(zhǔn)確地查找到他要想要查找的一些東西,但實(shí)際上這并不是很容易。如果檢索的是一個(gè)實(shí)詞,那么可能能夠比較快速的找到相應(yīng)的位置,但也有可能因?yàn)槟承┰蛘也坏?。這就涉及我今天想講的一個(gè)問(wèn)題——“異體字”對(duì)檢索的影響。

異體字在古文中肯定是可以互換的,但計(jì)算機(jī)檢索的實(shí)際上是“碼”,而不是“字”。兩個(gè)異體字,明顯是兩個(gè)碼,那么我們的目的實(shí)際上要檢字,而不是要檢碼。

舉個(gè)例子,前兩天我在微博上跟別人討論問(wèn)題,談到了一方墓志,里面有一個(gè)姓,是“厙”。這個(gè)字在宗譜中,或在一些墓碑中以“庫(kù)”字出現(xiàn)。有人把這個(gè)字念kù,這個(gè)字當(dāng)然不是念kù,那么,這兩個(gè)字是一個(gè)字嗎?任何一個(gè)“廣(廠)an”字頭的字來(lái)說(shuō),這只是念“庵an”。它在中古的時(shí)候既可以寫(xiě)成現(xiàn)在念“廠chang”的簡(jiǎn)體字,也可以寫(xiě)成現(xiàn)在念“廣guang”的簡(jiǎn)字。實(shí)際上每一個(gè)帶這個(gè)部首的字,如果你隨意地寫(xiě)成帶點(diǎn)的或者不帶點(diǎn)的,從而把一個(gè)字生生地變成了兩個(gè)字。而出巧不巧地,“厙”這個(gè)字跟“庫(kù)”字字形上剛好一模一樣,導(dǎo)致了有些人覺(jué)得,是不是中古的姓,因?yàn)檫@個(gè)字實(shí)在是太生僻了,大家都不認(rèn)識(shí),就把它改成庫(kù)存的“庫(kù)ku”。

有這個(gè)可能嗎?我覺(jué)得不可能,沒(méi)有哪個(gè)人會(huì)僅為了讀起來(lái)方便把自己的姓改成一個(gè)讀音不同的字,這是完全不可能的事。只是因?yàn)檫@個(gè)字它是生僻字,有可能別人讀不來(lái),從而一個(gè)人甚至一個(gè)家族把他的整個(gè)姓改成另外一個(gè)讀音完全不同的字。所以我們說(shuō)兩個(gè)字的讀音是一樣的,只不過(guò)它有一個(gè)同形的字。那么這就有問(wèn)題了,我們?cè)跈z索的時(shí)候,只檢“厙”找不到“庫(kù)”。

計(jì)算機(jī)的字體概念,現(xiàn)在是以音為依據(jù)的,而實(shí)際上漢字是一個(gè)形、音、義的結(jié)合體。從使用者的角度來(lái)說(shuō),我們更傾向于檢音和義的結(jié)合,而不是特別在乎它的形上的細(xì)微差別。那么如何讓這樣一種學(xué)術(shù)上的檢索的需求,和底層在漢字編碼這樣一個(gè)領(lǐng)域中的實(shí)際的現(xiàn)有的技術(shù)標(biāo)準(zhǔn)去結(jié)合,我覺(jué)得這是一個(gè)底層數(shù)據(jù)庫(kù)廠商,在提供全文檢索的時(shí)候,應(yīng)該要考慮的一種問(wèn)題,否則這個(gè)問(wèn)題會(huì)永遠(yuǎn)存在下去。

其實(shí)這個(gè)問(wèn)題要解決也不容易,但是也不是說(shuō)完全不可能解決。我在自己的一些數(shù)據(jù)庫(kù)里面,在全文檢索的時(shí)候,提供了一種可能的思路。我的想法是這樣,我們可以把專門(mén)用于瀏覽的文本和用于檢索的文本分開(kāi)。在建設(shè)全文數(shù)據(jù)庫(kù)的時(shí)候,要忠實(shí)于原著。這個(gè)書(shū)上印的是什么樣的,我就以什么樣的方式把它做出來(lái)。墓碑上是怎么刻的,我就以什么樣的方式記錄下來(lái)。要忠實(shí)原著,但這個(gè)目的是用于瀏覽。但作為學(xué)術(shù)來(lái)說(shuō),我的目的是檢索,是我要找到意思一致的,或者說(shuō)和這個(gè)意思相近的文本。

換句話說(shuō),我會(huì)在數(shù)據(jù)庫(kù)的后臺(tái)提供另一個(gè)全文的檢索版本,而全文索引是建立在檢索版本上,而不是瀏覽版本上。檢索版本和瀏覽版本之間的差別,可以用計(jì)算機(jī)領(lǐng)域所謂的“差別數(shù)據(jù)”來(lái)表示。這樣的話,在給用戶用于瀏覽的時(shí)候,我把檢索的內(nèi)容從數(shù)據(jù)庫(kù)里取出來(lái),再計(jì)算一下,產(chǎn)生出一個(gè)瀏覽版本,供別人看。而在全文檢索、搜字、搜詞的時(shí)候,利用檢索版本,那么用這種方式以后,我們就可以把所有明確知道含義的異體字,在相應(yīng)的檢索版本中,全都用一個(gè)標(biāo)準(zhǔn)形來(lái)保存。

比如,我們沒(méi)有必要提供一個(gè)專門(mén)的簡(jiǎn)體化的全文索引版本?簡(jiǎn)體化相對(duì)于繁體字,它的這樣一個(gè)字形的對(duì)應(yīng)關(guān)系往往是一對(duì)多的關(guān)系,那么這樣的話檢索版本可以統(tǒng)一地用一個(gè)標(biāo)準(zhǔn)的版本來(lái)制作,那么正體版本的瀏覽和此時(shí)不同字形的瀏覽,我以這樣一個(gè)方式來(lái)提供,通過(guò)區(qū)分以后來(lái)顯示。這樣的話能夠保證檢到相同的字體,但是這里面就有一個(gè)問(wèn)題,需要進(jìn)一步的定義,比如說(shuō)這個(gè)的定義,能不能建立一個(gè)庫(kù)?把所有的異體字關(guān)系建立起來(lái),從而提供一個(gè)標(biāo)準(zhǔn)的替換的能力。

我們不能指望一個(gè)技術(shù)解決全部的問(wèn)題。我的設(shè)想是,未來(lái)我們?cè)趯?duì)各種各樣需要數(shù)字化的文獻(xiàn),在數(shù)字化的同時(shí),不僅要保留它的形,還要保留它的音。我就覺(jué)得數(shù)字化的文本應(yīng)該有音的區(qū)別,把那些多音字的音也要記錄在數(shù)字化的文本里面去。我覺(jué)得這樣的話才是一個(gè)比較完整的數(shù)字化的結(jié)果。

除了這個(gè)小問(wèn)題以外,我還想說(shuō)一個(gè)事情,就是說(shuō)文史學(xué)者在研究或者說(shuō)檢索文史的信息的時(shí)候,他往往是帶著目的去找,而不是沒(méi)有目的地用瀏覽的方式去看。那么帶著目的找就有一個(gè)問(wèn)題,我們能不能把這樣一種目的直接轉(zhuǎn)化成尋找的途徑?根據(jù)這個(gè)目的快速的、準(zhǔn)確地定位到相關(guān)的信息和知識(shí)呢?如果有這樣一種手段的話,我相信每個(gè)人都會(huì)非常方便的檢索到自己想檢索的內(nèi)容。比如說(shuō)希望能夠提高文史檢索的效能化,必須要對(duì)文史的數(shù)據(jù)進(jìn)行重組,把它安排成一種便于檢索的一種組織方式。

我現(xiàn)在在做一個(gè)工作,把愛(ài)新覺(jué)羅家族的信息全部整理完。其中,比如《愛(ài)新覺(jué)羅宗譜》里主要是男性的信息,女性信息還沒(méi)有,包括每個(gè)人的這些妻子的關(guān)系,包括他的岳父的一些關(guān)系。比如說(shuō)我看到穆?tīng)柟R的后代,某些和徹爾格家族有聯(lián)姻關(guān)系,我們把全部變成一個(gè)非常大的表格,直接關(guān)聯(lián),盡可能把它們形成一個(gè)數(shù)據(jù)庫(kù)。這樣的話,我覺(jué)得可能能夠改變一些研究的手段和方法,至少給很多研究者提供某一個(gè)人更詳盡、更準(zhǔn)確的背景。對(duì)其中任何一個(gè)人,他的履歷,在不同的機(jī)構(gòu)的不同職位,什么時(shí)候開(kāi)始,什么時(shí)候結(jié)束,有些不是很準(zhǔn)確,但根據(jù)相應(yīng)的依據(jù),通過(guò)考證,每個(gè)人的社會(huì)關(guān)系、履歷形成一張表格,最終構(gòu)成整個(gè)數(shù)據(jù)庫(kù)的一個(gè)基礎(chǔ)。

我是計(jì)算機(jī)專業(yè)出身,不是搞文史的,當(dāng)然書(shū)讀的比一般的理工科的人可能稍微多一點(diǎn),把理工科的邏輯性思維,對(duì)數(shù)據(jù)的規(guī)整性的愛(ài)好,帶到文史學(xué)科的研究中,這種情況下,我們有可能引入一些有意思的東西。

(本場(chǎng)文字稿由涂亮、何青紅、廖家燕、孫紹丹、潘君杰、鄭闖輝、張國(guó)棟整理,經(jīng)蘇芃、李旻審定)

    責(zé)任編輯:于淑娟
    校對(duì):張艷
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2026 上海東方報(bào)業(yè)有限公司

            临安市| 北安市| 大化| 延安市| 龙陵县| 茌平县| 四平市| 金塔县| 高密市| 西乌| 丰顺县| 额济纳旗| 花莲市| 长葛市| 门源| 万年县| 洛隆县| 图们市| 淳化县| 东海县| 陆丰市| 伊宁市| 辽宁省| 桂林市| 高陵县| 朔州市| 铅山县| 邵阳县| 彝良县| 西宁市| 星座| 巴彦县| 郯城县| 泸溪县| 江孜县| 贵德县| 太仆寺旗| 永城市| 武陟县| 应城市| 封丘县|