時(shí)間:2014-03-25 編輯整理:早檢測(cè)網(wǎng) 來(lái)源:早檢測(cè)網(wǎng)
知識(shí)元搜索引擎:CNKI知識(shí)搜索平臺(tái)
CNKI是在中宣部、新聞出版署等主管部門(mén)支持下、由清華大學(xué)承擔(dān)的一項(xiàng)浩大的知識(shí)工程。2006年10月9日,新聞出版總署在清華大學(xué)召開(kāi)了十五國(guó)家重點(diǎn)電子出版物、十一五國(guó)家重大出版工程。中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)6(階段性成果)鑒定會(huì)。CNKI知識(shí)搜索平臺(tái)是中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)出版?zhèn)鞑?yīng)用平臺(tái),本文主要介紹其檢索功能,并對(duì)平臺(tái)進(jìn)行分析評(píng)價(jià)。
1.1CNKI文獻(xiàn)搜索,基于文獻(xiàn)內(nèi)容的知識(shí)搜索其搜索范圍包含近8000種期刊/雜志,300所大學(xué)研究院所博士碩士論文,1000種學(xué)術(shù)會(huì)議論文集,1000種重要報(bào)紙文章,實(shí)時(shí)數(shù)據(jù)更新。數(shù)據(jù)涵蓋自然科學(xué)、工程技術(shù)、醫(yī)學(xué)、農(nóng)業(yè)、生物、文學(xué)、歷史、哲學(xué)、政治、經(jīng)濟(jì)、法律、教育等領(lǐng)域的最新科技文獻(xiàn)資料。
搜索引擎及普通數(shù)據(jù)庫(kù)檢索平臺(tái)主要是通過(guò)關(guān)鍵詞匹配的簡(jiǎn)單方式查找相關(guān)文獻(xiàn)信息,但是,用戶通常很難用幾個(gè)孤立的關(guān)鍵詞表達(dá)清楚自己的檢索要求;而CNKI文獻(xiàn)檢索是基于對(duì)文獻(xiàn)內(nèi)容的詳細(xì)標(biāo)引,可以從任意位置搜索CNKI文獻(xiàn),包括標(biāo)題、作者、摘要、全文等位置;從多維角度展現(xiàn)搜索結(jié)果,包括引文、時(shí)間、作者、文獻(xiàn)類(lèi)型等角度;通過(guò)知識(shí)聚類(lèi)協(xié)助用戶完成搜索,包括詞聚類(lèi)與文章聚類(lèi);通過(guò)文獻(xiàn)鏈接引領(lǐng)用戶進(jìn)入知識(shí)網(wǎng)絡(luò),包括引證文獻(xiàn)、相似文獻(xiàn)等鏈接。
1.2CNKI數(shù)值搜索,一切用數(shù)字說(shuō)話以/一切用數(shù)字說(shuō)話0為理念,提供數(shù)字知識(shí)和統(tǒng)計(jì)數(shù)據(jù)搜索服務(wù),是一個(gè)數(shù)字知識(shí)問(wèn)答系統(tǒng)和統(tǒng)計(jì)搜索引擎,能夠從文獻(xiàn)全文中搜索各種數(shù)據(jù)的數(shù)值,如化工行業(yè)2005年產(chǎn)值等。以數(shù)值知識(shí)元作為基本的搜索單元,可提供更精準(zhǔn)的知識(shí)服務(wù),數(shù)值知識(shí)元是描述客觀事物或者事件數(shù)值屬性(如時(shí)間、長(zhǎng)度、高度、重量、百分比、銷(xiāo)售額、利潤(rùn)等)的知識(shí)單元。CNKI數(shù)值知識(shí)元庫(kù)中包含5000多萬(wàn)條知識(shí)元,內(nèi)容覆蓋各學(xué)科領(lǐng)域,從科學(xué)知識(shí)到財(cái)經(jīng)資訊,從大政方針到生活常識(shí)。
1.3CNKI新概念搜索,追蹤學(xué)術(shù)新概念學(xué)術(shù)研究的靈魂在于創(chuàng)新,創(chuàng)新成果通常以提出新的定理、概念、方法等形式發(fā)表出來(lái)。CNKI新概念搜索提供對(duì)學(xué)術(shù)新概念的瀏覽和查詢,其基于CNKI現(xiàn)有文獻(xiàn),按照年份、專(zhuān)業(yè)、類(lèi)別收錄所有文獻(xiàn)中出現(xiàn)的新概念的產(chǎn)品,能夠從文獻(xiàn)全文中按時(shí)間和內(nèi)容范圍搜索概念術(shù)語(yǔ)及其解釋,支持全稱(chēng)、簡(jiǎn)稱(chēng)、縮略語(yǔ)等進(jìn)行查詢。目前庫(kù)中收錄了2000年至2006年,每年CNKI庫(kù)中出現(xiàn)的新概念,并且給出新概念的具體文章出處,用戶可以直接點(diǎn)擊查詢。CNKI新概念的搜索方式有兩種,一種是年度分類(lèi)導(dǎo)航和專(zhuān)業(yè)類(lèi)別直接搜索查看;另一種是根據(jù)術(shù)語(yǔ)的關(guān)鍵詞手動(dòng)搜索。
1.4CNKI學(xué)術(shù)定義搜索,實(shí)現(xiàn)學(xué)術(shù)定義的快速查詢CNKI學(xué)術(shù)定義搜索提供對(duì)學(xué)術(shù)定義的快速查詢,內(nèi)容全部來(lái)源于CNKI全文庫(kù),涵蓋了文、史、哲、經(jīng)濟(jì)、數(shù)理科學(xué)、航天、建筑、工業(yè)技術(shù)、計(jì)算機(jī)等所有學(xué)科和行業(yè)。使用學(xué)術(shù)定義搜索可以得到想要查詢?cè)~匯的準(zhǔn)確學(xué)術(shù)定義,并且可直接查詢定義出處。不同于一般的網(wǎng)頁(yè)和文獻(xiàn)搜索等參考型搜索引擎系統(tǒng),CNKI學(xué)術(shù)定義搜索是一部不斷更新完善的學(xué)術(shù)定義詞典,力求為用戶提供最權(quán)威、最準(zhǔn)確的學(xué)術(shù)定義概念。
1.5CNKI表格搜索和CNKI圖片搜索,首創(chuàng)對(duì)學(xué)術(shù)圖形、表格內(nèi)容的搜索
CNKI表格搜索和CNKI圖片搜索能夠?qū)崿F(xiàn)對(duì)學(xué)術(shù)圖形、表格基于內(nèi)容的搜索。CNKI表格搜索能夠搜索文獻(xiàn)中的表格,可以按表名或表格中的內(nèi)容進(jìn)行查詢。CNKI圖片搜索能夠搜索文獻(xiàn)中的圖片,能通過(guò)圖的標(biāo)題、描述進(jìn)行搜索。圖表庫(kù)分別包含500萬(wàn)以上從文獻(xiàn)中自動(dòng)抽取的圖形、表格,以及他們對(duì)應(yīng)的標(biāo)題、所在文獻(xiàn)、作者、文獻(xiàn)中對(duì)圖表內(nèi)容的闡述等,以此實(shí)現(xiàn)基于內(nèi)容的圖表搜索。這是一般搜索引擎無(wú)法實(shí)現(xiàn)的。
1.6CNKI翻譯助手,全能翻譯工具
CNKI翻譯助手能實(shí)現(xiàn)對(duì)中英文詞、短語(yǔ)、句子的輔助互譯。不同于一般的英漢互譯工具,CNKI翻譯助手是以CNKI總庫(kù)所有文獻(xiàn)數(shù)據(jù)為依據(jù),它不僅提供英漢詞語(yǔ)、短語(yǔ)的翻譯檢索,還可以提供句子的翻譯檢索。不但對(duì)翻譯需求中的每個(gè)詞給出準(zhǔn)確翻譯和解釋,給出大量與翻譯請(qǐng)求在結(jié)構(gòu)上相似、內(nèi)容上相關(guān)的術(shù)語(yǔ)使用實(shí)例、短語(yǔ)使用實(shí)例等,方便用戶參考后得到最恰當(dāng)?shù)姆g結(jié)果。
CNKI翻譯助手采用自動(dòng)抽取技術(shù),從CNKI系列數(shù)據(jù)庫(kù)中挖掘整理出120余萬(wàn)常用詞匯、專(zhuān)業(yè)術(shù)語(yǔ)、成語(yǔ)、俚語(yǔ)、固定用法、詞組等中英文詞條以及1000余萬(wàn)例句,形成海量中英在線詞典和雙語(yǔ)平行語(yǔ)料庫(kù)。數(shù)據(jù)實(shí)時(shí)更新,內(nèi)容涵蓋自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域。
與一般的雙語(yǔ)詞典相比,CNKI翻譯助手具有以下優(yōu)勢(shì):一是通過(guò)將句子拆分為詞,能夠?qū)Χ陶Z(yǔ)或句子進(jìn)行輔助翻譯;二是除了詞匯翻譯外,還提供了大量的例句,并按句子結(jié)構(gòu)相似性進(jìn)行排序;三是能夠翻譯術(shù)語(yǔ)的英文縮略語(yǔ)。
2.1CNKI知識(shí)搜索實(shí)現(xiàn)了理念上的創(chuàng)新,體現(xiàn)了資源檢索平臺(tái)及搜索引擎發(fā)展的方向
資源檢索搜索工具已經(jīng)發(fā)展為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域,需要用到信息檢索、人工智能、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多個(gè)領(lǐng)域的理論與技術(shù)。CNKI知識(shí)搜索平臺(tái)基于先進(jìn)的設(shè)計(jì)理念,實(shí)現(xiàn)了對(duì)文獻(xiàn)內(nèi)容的詳細(xì)標(biāo)引,實(shí)現(xiàn)了對(duì)學(xué)術(shù)圖形、表格內(nèi)容的檢索,滿足用戶對(duì)文獻(xiàn)內(nèi)容準(zhǔn)確檢索的需求。解決了現(xiàn)有搜索引擎及資源檢索平臺(tái)存在的不足,體現(xiàn)了信息資源整合傳播、增值利用和知識(shí)服務(wù)的理念。
2.2CNKI知識(shí)搜索實(shí)現(xiàn)了多種資源的整合
CNKI制定了/CNKI系列數(shù)據(jù)庫(kù)產(chǎn)品標(biāo)準(zhǔn)0,涉及從數(shù)據(jù)入編、加工到最后形成數(shù)據(jù)庫(kù)產(chǎn)品的全過(guò)程,為開(kāi)展知識(shí)挖掘提供了基礎(chǔ);CNKI建設(shè)了/中國(guó)知識(shí)資源總庫(kù)0,及各種知識(shí)庫(kù)資源,包含近8000種期刊/雜志,300所大學(xué)研究院所博士碩士論文,1000種學(xué)術(shù)會(huì)議論文集,1000種重要報(bào)紙文章,實(shí)時(shí)數(shù)據(jù)更新。數(shù)據(jù)涵蓋自然科學(xué)、工程技術(shù)、醫(yī)學(xué)、農(nóng)業(yè)、生物、文學(xué)、歷史、哲學(xué)、政治、經(jīng)濟(jì)、法律、教育等領(lǐng)域的最新科技文獻(xiàn)資料。在資源數(shù)量上和完備性上為實(shí)現(xiàn)知識(shí)搜索提供了保障。
2.3CNKI知識(shí)搜索進(jìn)行技術(shù)創(chuàng)新,實(shí)現(xiàn)了檢索結(jié)果的知識(shí)聚類(lèi)
聚類(lèi)分析已成為標(biāo)準(zhǔn)的分類(lèi)技術(shù),檢索搜索工具一般都可以實(shí)現(xiàn)初步的聚類(lèi)。但CNKI知識(shí)搜索提供的知識(shí)聚類(lèi)功能是一般的檢索平臺(tái)和搜索引擎沒(méi)有的。知識(shí)聚類(lèi)是針對(duì)用戶輸入的搜索詞和搜索結(jié)果由系統(tǒng)智能處理后得到的結(jié)果,它代表了在檢索結(jié)果中和用戶所輸入檢索詞最相關(guān)的一部分詞匯,它可以幫助用戶明確檢索需求、調(diào)整檢索策略、進(jìn)行文獻(xiàn)篩選。
如以/信息共享空間0作為檢索詞檢索信息共享空間方面的文獻(xiàn),采用高級(jí)檢索方式,限制在標(biāo)題字段,得到檢索結(jié)果52條。CNKI提供了文獻(xiàn)類(lèi)型、文獻(xiàn)所屬學(xué)科屬性和結(jié)果聚類(lèi)三種聚類(lèi)方式。文獻(xiàn)類(lèi)型、文獻(xiàn)所屬學(xué)科屬性是常見(jiàn)的聚類(lèi)方式,CNKI提供了獨(dú)有的結(jié)果聚類(lèi),即基于快速聚類(lèi)算法,對(duì)檢索結(jié)果的知識(shí)點(diǎn)進(jìn)行聚類(lèi),并將知識(shí)點(diǎn)顯示給用戶,幫助用戶改善檢索表達(dá)式,擴(kuò)展檢索意圖。
2.4CNKI知識(shí)搜索實(shí)現(xiàn)了知識(shí)元搜索,這是其創(chuàng)新之處從2002年開(kāi)始,清華大學(xué)開(kāi)始嘗試?yán)靡环N/知識(shí)網(wǎng)絡(luò)0的方式來(lái)組織知識(shí),通過(guò)知識(shí)之間在微觀水平上的聯(lián)系把知識(shí)直接關(guān)聯(lián)起來(lái),使知識(shí)可以識(shí)別并相互切換,便于人們查找利用。組成知識(shí)網(wǎng)絡(luò)的手段之一叫知識(shí)元鏈接。通常,我們把這些相對(duì)獨(dú)立的部分稱(chēng)為知識(shí)元。知識(shí)元是指相對(duì)獨(dú)立的、表征知識(shí)點(diǎn)的一個(gè)元素,它可以是一段文字、一幅圖表、一個(gè)公式、一章或一節(jié)、一段動(dòng)畫(huà)、一個(gè)程序等。知識(shí)元鏈接,是指從一本書(shū)、一本雜志、一篇文章中把最小的知識(shí)單元提煉出來(lái),比如把一個(gè)概念、一個(gè)事實(shí)、一個(gè)數(shù)據(jù)等等實(shí)際能說(shuō)明某個(gè)知識(shí)的元素提煉出來(lái),這樣可以降低人們查找知識(shí)的難度;同時(shí)通過(guò)小的知識(shí)單元能夠把大的知識(shí)單元,比如一本書(shū)、一篇文章相互之間的關(guān)系建立起來(lái),一個(gè)知識(shí)單元的描述和定義一般和其他的知識(shí)相關(guān),可以從知識(shí)本身的定義和描述當(dāng)中建立起知識(shí)之間的關(guān)系及文獻(xiàn)之間的關(guān)系。目前,5中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)6已經(jīng)建立起容納40萬(wàn)概念知識(shí)元、1000萬(wàn)數(shù)值知識(shí)元的龐大知識(shí)元數(shù)據(jù)庫(kù)。CNKI知識(shí)搜索平臺(tái)因此對(duì)廣泛分布在網(wǎng)絡(luò)上的知識(shí)信息具有了一種強(qiáng)大的功能,即盡管其他網(wǎng)站的知識(shí)信息沒(méi)有建立起體現(xiàn)知識(shí)之間聯(lián)系的知識(shí)網(wǎng)絡(luò),在內(nèi)容上不能呈現(xiàn)出一定的關(guān)聯(lián),只要通過(guò)CNKI平臺(tái),就可以把放在任何網(wǎng)站內(nèi)的數(shù)據(jù)庫(kù)或任何網(wǎng)站上的網(wǎng)頁(yè)之間的關(guān)系建立起來(lái),使整個(gè)CNKI網(wǎng)格資源中所有的網(wǎng)頁(yè)或數(shù)據(jù)庫(kù)成為一個(gè)通過(guò)知識(shí)網(wǎng)絡(luò)整合的整體,供一站式檢索使用。
2.5CNKI知識(shí)搜索提供多樣化的搜索排序,利于用戶對(duì)檢索結(jié)果進(jìn)行瀏覽、分析、管理
CNKI文獻(xiàn)搜索提供多種個(gè)性化檢索結(jié)果排序方式,(1)綜合排序:綜合考慮文獻(xiàn)的多種因素給定排序結(jié)果,是檢索結(jié)果的默認(rèn)排序方式。(2)相關(guān)度排序:文獻(xiàn)按匹配檢索詞的程度排序。(3)被引情況排序:文獻(xiàn)按被引用次數(shù)排序,反映了文獻(xiàn)被傳播利用的情況。(4)期望被引排序:文獻(xiàn)未來(lái)一段時(shí)間內(nèi)被引用情況的預(yù)測(cè)排序,是系統(tǒng)自動(dòng)計(jì)算的參考值。(5)發(fā)表時(shí)間排序:文獻(xiàn)按發(fā)表的時(shí)間排序,最新發(fā)表文獻(xiàn)排在最前列。(6)作者指數(shù)排序:文獻(xiàn)按作者在學(xué)科領(lǐng)域內(nèi)的知名度排序,是系統(tǒng)自動(dòng)計(jì)算的參考值。
2.6CNKI知識(shí)搜索提供知識(shí)元鏈接功能
知識(shí)元鏈接,是指從一本書(shū)、一本雜志、一篇文章中把最小的知識(shí)單元提煉出來(lái),比如把一個(gè)概念、一個(gè)事實(shí)、一個(gè)數(shù)據(jù)等等實(shí)際能說(shuō)明某個(gè)知識(shí)的元素提煉出來(lái),這樣可以降低人們查找知識(shí)的難度;同時(shí)通過(guò)小的知識(shí)單元能夠把大的知識(shí)單元,比如一本書(shū)、一篇文章相互之間的關(guān)系建立起來(lái)?;谥R(shí)元鏈接功能,CNKI知識(shí)搜索能針對(duì)搜索結(jié)果提供相似文獻(xiàn)鏈接、同類(lèi)文獻(xiàn)鏈接、文獻(xiàn)引用鏈接、文獻(xiàn)來(lái)源鏈接,能帶給用戶更多的文獻(xiàn)信息。點(diǎn)擊文獻(xiàn)標(biāo)題可以進(jìn)入CNKI知網(wǎng)節(jié)。如果具有下載權(quán)限,還可以直接下載文獻(xiàn)CAJ與PDF兩種格式的全文。提供搜索詞的學(xué)術(shù)定義、搜索詞的學(xué)術(shù)研究趨勢(shì)、搜索詞相關(guān)的數(shù)字和搜索詞的中英文翻譯。
2.7CNKI知識(shí)搜索的不足及尚需改進(jìn)之處
目前,CNKI知識(shí)搜索平臺(tái)在知識(shí)挖掘方面,既有任意詞全文檢索快照,又有新概念、數(shù)值、學(xué)術(shù)定義、圖片、表格、中英文整句對(duì)照翻譯等知識(shí)元搜索功能,廣泛采用了元數(shù)據(jù)加工、規(guī)范文檔、文獻(xiàn)互動(dòng)傳播數(shù)據(jù)的規(guī)范化分析成果,實(shí)現(xiàn)了對(duì)搜索結(jié)果進(jìn)行多種高性能的排序和動(dòng)態(tài)聚類(lèi)。但同時(shí),CNKI知識(shí)搜索平臺(tái)還不能很好地滿足不同用戶不同方面的需求,因此有必要將它改造成為一個(gè)能夠滿足各類(lèi)用戶需求的多樣化的服務(wù)體系。
2.7.1CNKI知識(shí)搜索不能實(shí)現(xiàn)精確檢索
精確檢索是指檢索結(jié)果中包含檢索詞的原形。即指按照所輸入的字的形式實(shí)現(xiàn)精確地匹配的檢索。如信息共享空間,是一個(gè)固定短語(yǔ),英譯為informationcommons,簡(jiǎn)稱(chēng),IC,但在CNKI知識(shí)搜索平臺(tái)中由于采用了知識(shí)元為檢索的單位,同時(shí)沒(méi)有提供相關(guān)的檢索技術(shù)進(jìn)行實(shí)現(xiàn),信息共享空間不能通過(guò)限定作為一個(gè)固定的短語(yǔ)或詞組,這樣就造成結(jié)果的查準(zhǔn)率降低。如采用CNKI文獻(xiàn)搜索檢索有關(guān)信息共享空間的文獻(xiàn),結(jié)果為52篇文獻(xiàn),經(jīng)過(guò)逐篇瀏覽文摘,確認(rèn)其中只有6篇文獻(xiàn)是與信息共享空間相關(guān)的文獻(xiàn)。在這一點(diǎn)上,CNKI知識(shí)搜索平臺(tái)應(yīng)借鑒Google的技術(shù)和實(shí)現(xiàn)方式,以使檢索功能更完備,滿足不同用戶的個(gè)性化的檢索需求。
2.7.2檢索結(jié)果相關(guān)性的判定標(biāo)準(zhǔn)科學(xué)性不足,還需完善在信息檢索中,相關(guān)性是一個(gè)關(guān)鍵的概念。信息檢索的/相關(guān)性0(relevance),是指信息檢索系統(tǒng)針對(duì)用戶的查詢(query)從文檔集中檢出的文檔與查詢之間的一種匹配關(guān)系。相關(guān)性排序是指在檢索到的結(jié)果集合中能夠優(yōu)先提供最具有價(jià)值的結(jié)果給用戶,這是體現(xiàn)搜索檢索工具質(zhì)量的一個(gè)重要指標(biāo)。CNKI知識(shí)搜索平臺(tái)提供了相關(guān)性排序方式,但其判定標(biāo)準(zhǔn)科學(xué)性不足,導(dǎo)致相關(guān)性排序結(jié)果明顯出現(xiàn)錯(cuò)誤。如采用CNKI文獻(xiàn)搜索檢索有關(guān)信息共享空間的文獻(xiàn)為例,檢索結(jié)果中期刊論文為35篇,其中與信息共享空間相關(guān)的文獻(xiàn)6篇,采用相關(guān)性排序時(shí),這6篇文獻(xiàn)沒(méi)有排在最前面,也就是說(shuō),CNKI知識(shí)搜索平臺(tái)的相關(guān)性測(cè)度與文獻(xiàn)與檢索需求的實(shí)際相關(guān)性有著較大的差別,這是CNKI知識(shí)搜索平臺(tái)需要改進(jìn)之處。
1995年9月,清華大學(xué)創(chuàng)辦了5中國(guó)學(xué)術(shù)期刊(光盤(pán)版)6,CNKI知識(shí)搜索,開(kāi)始了利用先進(jìn)技術(shù)整合出版資源之路。經(jīng)過(guò)10年的努力,如今的5中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)6不僅能夠?qū)崿F(xiàn)文獻(xiàn)資源的檢索與共享,而且還在技術(shù)創(chuàng)新的基礎(chǔ)上實(shí)現(xiàn)了大量增值服務(wù)功能。正所謂/十年磨一劍0,CNKI知識(shí)搜索平臺(tái)是我國(guó)由自主知識(shí)產(chǎn)權(quán)的文獻(xiàn)檢索系統(tǒng)、知識(shí)挖掘系統(tǒng)、文獻(xiàn)評(píng)價(jià)研究系統(tǒng)及數(shù)字化學(xué)習(xí)與研究平臺(tái),已經(jīng)達(dá)到國(guó)際先進(jìn)水平。
周秀會(huì)
( 天津工業(yè)大學(xué), 天津 300 160)