時間:2014-03-21 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)
近年來,隨著IT技術(shù)在學術(shù)領(lǐng)域廣泛,深入的應用,各種數(shù)字學術(shù)信息資源數(shù)量不斷膨脹,而使用普通的搜索引擎搜索浩如煙海的學術(shù)信息存在著檢重率過多,內(nèi)容與所需信息的相關(guān)性不匹配,深層網(wǎng)頁資源容易漏檢等問題,這給需要搜索專業(yè)信息的科研人員帶來諸多不便.為了能使科研人員及時,高效,準確地查找到所需要的學術(shù)資源,富有個性的,學術(shù)性的,專業(yè)性的學術(shù)搜索引擎應運而生.學術(shù)搜索引擎對存在于互聯(lián)網(wǎng)上的各類學術(shù)資源進行二次提煉整合,過濾掉普通搜索中的大量無用信息,幫助用戶更精準,更直接地在整個學術(shù)領(lǐng)域中確定相關(guān)性最強的研究信息.CNKI知識搜索是在整合中國學術(shù)期刊網(wǎng)絡資源基礎(chǔ)上推出的中文學術(shù)搜索引擎,是我國擁有自主知識產(chǎn)權(quán)的文獻檢索系統(tǒng)和數(shù)字化學習與研究的平臺.本文主要介紹其檢索功能和特色并對其發(fā)展建設提出建議.
CNKI文獻搜索是清華同方知網(wǎng)公司以CNKI總庫資源為基礎(chǔ)具有自主知識產(chǎn)權(quán)的專業(yè)文獻檢索系統(tǒng).其搜索范圍包含近8000種期刊300所大學研究院所博士碩士論文1000種學術(shù)會議論文集1000種重要報紙文章而且實時數(shù)據(jù)更新.數(shù)據(jù)涵蓋中國學術(shù)期刊博碩士論文會議論文報紙文獻專利標準等近4000多萬篇最新專業(yè)學術(shù)文獻.
CNKI知識搜索在KBase獨有的搜索引擎技術(shù)上采用了最新的文獻排序技術(shù)分組技術(shù)以及用戶搜索意圖智能分析技術(shù).能夠?qū)τ脩粢粋€簡單的搜索請求做全方位的智能解析在返回最相關(guān)最重要的文獻基礎(chǔ)上對全部相關(guān)文獻做立體化分析CNKI搜索界面簡潔明快并通過引證文獻相似文獻等鏈接層層深入搜索使用戶對搜索結(jié)果有更全面的了解.用戶可以通過指定來源數(shù)據(jù)庫學科分類等不同分組方式對檢索結(jié)果進行進一步篩選查到符合自己要求的檢索內(nèi)容.CNKI知識搜索提供相關(guān)度被引次數(shù)下載次數(shù)時間檢索等排序方式搜索結(jié)果根據(jù)下載次數(shù)標出下載指數(shù)供用戶參考CNKI知識搜索的高級檢索提供文獻重要度檢索包括核心期刊SCEI文獻來源有基金選項對快速檢索出高質(zhì)量的科技文獻很有幫助.
CNKI數(shù)字搜索以一切用數(shù)字說話為理念提供數(shù)字知識和統(tǒng)計數(shù)據(jù)搜索服務是一個數(shù)字知識問答系統(tǒng)和統(tǒng)計搜索引擎能夠從文獻全文中搜索各種數(shù)據(jù)的數(shù)值以數(shù)值知識元作為基本的搜索單元可 提供更精準的知識服務,數(shù)值知識元庫中包含,多萬條知識元內(nèi)容覆蓋各學科領(lǐng)域從科學知識到財經(jīng)資訊從大政方針到生活常識,數(shù)字搜索的數(shù)值知識包羅萬象數(shù)據(jù)來源廣泛數(shù)字搜索結(jié)果既有來源于,文獻庫也有一部分來自于互聯(lián)網(wǎng)如在搜索框里輸入,福建共搜索到相關(guān)記錄條搜索結(jié)果頁面提供了文獻來源權(quán)威統(tǒng)計年鑒數(shù)據(jù)和中國宏觀數(shù)據(jù)挖掘分析系統(tǒng)鏈接在權(quán)威統(tǒng)計年鑒中共搜索到相關(guān)記錄,條主要來自中國城市統(tǒng)計年鑒中國統(tǒng)計年鑒和地方統(tǒng)計年鑒中國宏觀數(shù)據(jù)挖掘分析系統(tǒng)通過統(tǒng)計年鑒統(tǒng)計公報和政府各大統(tǒng)計網(wǎng)站的資料提供中國多個區(qū)域指標為社科研究和情報決策提供了有力的數(shù)值統(tǒng)計工具.
新概念搜索提供對學術(shù)新概念的瀏覽和查詢其基于現(xiàn)有文獻按照年份專業(yè)類別收錄所有文獻中出現(xiàn)的新概念的產(chǎn)品能夠從文獻全文中按時間和內(nèi)容范圍搜索概念術(shù)語及其解釋支持全稱簡稱縮略語等進行查詢目前庫中收錄了2000年至2006年每年CNKI庫中出現(xiàn)的新概念并且給出新概念的具體文章出處用戶可以直接點擊查詢.
學術(shù)定義搜索提供對學術(shù)定義的快速查詢內(nèi)容全部來源于全文庫涵蓋了文史哲經(jīng)濟數(shù)理科學航天建筑工業(yè)技術(shù)計算機等所有學科和行業(yè)使用學術(shù)定義搜索可以得到想要查詢詞匯的準確學術(shù)定義,并且可直接查詢定義出處,學術(shù)定義搜索是一部不斷更新完善的學術(shù)定義詞典力求為用戶提供最權(quán)威最準確的學術(shù)定義概念.
學術(shù)趨勢是依托于中國知識資源總庫中的海量文獻和千萬用戶的使用情況提供的學術(shù)趨勢分析服務通以知識資源總庫中與關(guān)鍵詞最相關(guān)的文獻數(shù)量為基礎(chǔ)統(tǒng)計關(guān)鍵詞作為文獻主題出現(xiàn)的次數(shù)形成學術(shù)界對某一學術(shù)領(lǐng)域關(guān)注度的量化表示學術(shù)關(guān)注度學術(shù)關(guān)注度能夠體現(xiàn)某一研究領(lǐng)域隨著時間的變化被學術(shù)界所關(guān)注的情況展現(xiàn)學術(shù)關(guān)注熱點揭示該學術(shù)領(lǐng)域?qū)W術(shù)發(fā)展的潮流.
圖形搜索能夠搜索文獻中的圖形表格可以按表名表格中的內(nèi)容和圖的標題描述進行查詢圖表庫分別包含萬以上從文獻中自動抽取的圖形表格以及他們對應的標題所在文獻作者文獻中對圖表內(nèi)容的闡述等以此實現(xiàn)基于內(nèi)容的圖表搜索這是一般搜索引擎無法實現(xiàn)的.
我國科技論文長期存在英文文摘不規(guī)范問題影響國際間學術(shù)交流通用翻譯軟件難以準確翻譯學術(shù)論文翻譯助手能實現(xiàn)對中英文詞短語句子的輔助互譯翻譯助手不但對翻譯需求中的每個詞給出準確翻譯和解釋還給出大量與翻譯請求在結(jié)構(gòu)上相似內(nèi)容上相關(guān)的術(shù)語使用實例短語使用實例等方便用戶參考后得到最恰當?shù)姆g結(jié)果翻譯助手采用自動抽取技術(shù)從系列數(shù)據(jù)庫中挖掘整理出余萬常用詞匯專業(yè)術(shù)語成語俚語固定用法詞組等中英文詞條以及余萬例句形成海量中英在線詞典和雙語平行語料庫數(shù)據(jù)實時更新內(nèi)容涵蓋自然科學和社會科學的各個領(lǐng)域.
知識搜索根據(jù)輸入的搜索詞和搜索結(jié)果自動生成文獻類型聚類和知識聚類提供了文獻類型文獻所屬學科屬性和結(jié)果聚類三種聚類方式文獻類型文獻所屬學科屬性是常見的聚類方式提供了獨有的結(jié)果聚類即基于快速聚類算法對檢索結(jié)果的知識點進行聚類并將知識點顯示給用戶幫助用戶改善檢索表達式使得文獻選擇更精細更準確提供了文獻的重要程度分類通過期刊來源如核心期刊收入期刊等可以幫助科研人員判斷文獻的質(zhì)量的關(guān)鍵詞聚類展示了知識系統(tǒng)把知識組織成簇揭示了知識的背景方便讀者獲得領(lǐng)域的全局知識結(jié)構(gòu).
知識搜索提供多樣化的搜索排序利于用戶對檢索結(jié)果進行瀏覽分析管理系統(tǒng)提供多種個性化排序方式綜合排序相關(guān)度下載頻次被引頻次發(fā)表時間便于用戶對當前的搜索結(jié)果有一個全面的了解通過相關(guān)度排序可以找到與檢索詞最相關(guān)的文獻根據(jù)發(fā)表時間排序可以幫助用戶快速搜尋到最新文獻確定相關(guān)研究的時間順序?qū)崿F(xiàn)學術(shù)跟蹤下載頻次和被引頻次排序有助于檢索到質(zhì)量較高被學術(shù)同行認可的文獻.
制定了系列數(shù)據(jù)庫產(chǎn)品標準涉及從數(shù)據(jù)入編加工到最后形成數(shù)據(jù)庫產(chǎn)品的全過程建設了中國知識資源總庫數(shù)據(jù)涵蓋自然科學工程技術(shù)醫(yī)學農(nóng)業(yè)生物文學歷史哲學政治經(jīng)濟法律教育等領(lǐng)域的最新科技文獻資料學術(shù)網(wǎng)站導航對用戶進行引導和資源推薦方便用戶快捷地鏈接到自己需要的學術(shù)網(wǎng)站學術(shù)網(wǎng)站導航采取三種組織方式行業(yè)導航學科導航網(wǎng)站類型導航工具書庫集成了近家知名出版社的近余部工具書包括??妻o典百科全書圖錄傳記手冊等內(nèi)容涵蓋哲學文學藝術(shù)社會科學文化教育自然科學工程技術(shù)醫(yī)學等各個領(lǐng)域.
知識搜索平臺基于先進的設計理念實現(xiàn)了對文獻內(nèi)容的詳細標引實現(xiàn)了對學術(shù)圖形表格內(nèi)容的檢索滿足用戶對文獻內(nèi)容準確檢索的需求解決了現(xiàn)有搜索引擎及資源檢索平臺存在的不足體現(xiàn)了信息資源整合傳播增值利用和知識服務的理念但同時知識搜索平臺還存在調(diào)動用戶參與方面不夠只能在自己旗下的數(shù)據(jù)庫中搜索搜索范圍比較小查準率低相關(guān)性排序科學性不足等缺點在知識搜索平臺中由于采用了知識元為檢索的單位同時沒有提供相關(guān)的檢索技術(shù)進行實現(xiàn)用戶利用語詞檢索時產(chǎn)生了許多虛假組配嚴重影響了信息的檢準率在這一點上知識搜索平臺應借鑒的技術(shù)和實現(xiàn)方式以使檢索功能更完備滿足不同用戶的個性化的檢索需求知識搜索平臺提供了相關(guān)性排序方式但其判定標準科學性不足導致知識搜索平臺的相關(guān)性測度與文獻與檢索需求的實際相關(guān)性有著較大的差別這是知識搜索平臺需要改進之處學術(shù)趨勢缺少國外資料不能有效利用大量免費國外資源而且更新較慢有些資料僅僅更新到06年.
搜索引擎的發(fā)展趨勢之一是多元化,即元搜索引擎,元搜索引擎的功能優(yōu)于單搜索引擎,它能有選擇地調(diào)用多個單搜索引擎搜索集信息,并能集中處理查檢結(jié)果按其相似性進行匹配排序?qū)⒉榈降男畔磫嗡阉饕鏆w類返回用戶知識搜索應與 維普萬方等搜索引擎建立協(xié)作關(guān)系如果在一個搜索引擎中找不到滿意的結(jié)果可以通過此搜索引擎向其他搜索引擎提出請求得到結(jié)果后處理返回給用戶為用戶提供更有價值的學術(shù)內(nèi)容這樣可以有效解決知識搜索覆蓋范圍有限的問題并能將其搜索范圍拓展到外文學術(shù)搜索領(lǐng)域.
未來的搜索引擎應以讀者導向為依據(jù),用戶可以用自然語句提問,通過交互式提問幫助用戶選擇檢索表達式,對檢索結(jié)果作進一步的綜合處理,通過個性化搜索滿足用戶的個體信息需求,通過長期觀察用戶的搜索行為識別用戶的信息需求偏好根據(jù)用戶對搜索結(jié)果的反饋調(diào)整搜索策略.個性化搜索引擎的核心是根據(jù)用戶信息以及通過跟蹤分析用戶的搜索行為來提高搜索引擎查準率.智能化智能化搜索引擎把信息檢索從目前基于關(guān)鍵詞的層面提高到基于知識的層面.智能搜索引擎對知識有一定的理解與處理能力能夠?qū)崿F(xiàn)智能分詞技術(shù)同義詞技術(shù)概念搜索短語識別提供用戶登記用戶興趣自動識別內(nèi)容的語義理解信息過濾和信息推送等功能.它允許用戶采用自然語言進行信息檢索為他們提供更方便更確切的搜索服務.中文搜索引擎的智能化進程其實質(zhì)是對自然語言理解和處理日益精確化的過程.對于中文檢索來講如何更好地解決分詞歧義問題如何實現(xiàn)語境分析如何實現(xiàn)智能檢索將是推動中文搜索引擎前進的突破口針對搜索的查重率較高的問題可以采取數(shù)據(jù)清洗技術(shù).通過數(shù)據(jù)的清洗可以消除檢測數(shù)據(jù)中存在的錯誤相似重復記錄的問題.
隨著IT技術(shù)的迅猛發(fā)展圖形圖像視頻音頻動畫及以上各種媒體的組合將取代文本成為未來社會的主要的信息載體. 目前學術(shù)搜索引擎一般只搜索文本文件非文本檢索只能看到部分PDF文檔和Postscript文檔.圖形圖像視頻音頻動畫等非文本搜索功能比較弱.隨著多媒體技術(shù)和搜索技術(shù)的發(fā)展學術(shù)搜索也將實現(xiàn)多媒體化搜索使人們在搜索學術(shù)信息的同時感受到網(wǎng)絡帶來的無限樂趣多媒體信息具有多元化多維性的特征因而難以憑借幾個關(guān)鍵詞加以描述.基于關(guān)鍵詞檢索的同時, 還需要對多媒體的內(nèi)容進行深層次的分析與理解才能取得較好的檢索效果.開發(fā)基于內(nèi)容檢索的多媒體搜索引擎技術(shù)將是學術(shù)搜索引擎的新的研究方向.
孫巧稚