一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁(yè)論文檢測(cè)教程基于萬(wàn)方數(shù)據(jù)的智能檢索知識(shí)發(fā)現(xiàn)應(yīng)用研究-wanfangdata

基于萬(wàn)方數(shù)據(jù)的智能檢索知識(shí)發(fā)現(xiàn)應(yīng)用研究-wanfangdata

時(shí)間:2014-03-24 編輯整理:早檢測(cè)網(wǎng) 來(lái)源:早檢測(cè)網(wǎng)

分析萬(wàn)方數(shù)據(jù)2003- 2007年間期刊論文數(shù)據(jù), 在原有關(guān)鍵詞基礎(chǔ)上構(gòu)建主題詞表, 通過(guò)實(shí)體識(shí)別, 對(duì)作者、機(jī)構(gòu)、文檔進(jìn)行關(guān)聯(lián)分析, 發(fā)現(xiàn)作者、機(jī)構(gòu)、文檔間的潛在聯(lián)系, 為進(jìn)一步語(yǔ)義檢索研究做基礎(chǔ)性探討。

The papermakes an assoc iation analys is on authors, affiliations and documents based on the data of the papers published in Chinese periodicals from Wanfang Data( 2003- 2007). This helps to indicate the latent relationships among authors, affiliations and documents. An effectivemethod of ent ity recognition is also proposed to mi prove the accuracy of association analysis in this application. And the application is supposed to be the basis of further semantic retrieva.

1 引 言

在現(xiàn)代化信息技術(shù)的沖擊下, 傳統(tǒng)信息服務(wù)已經(jīng)不能滿足用戶對(duì)高質(zhì)量知識(shí)信息的需求, 而蓬勃發(fā)展的搜索引擎由于其自身資源的冗余、缺少足夠組織等情況限制, 只能滿足用戶對(duì)信息的一般需求, 并不能深入探求所提

供信息是否能滿足用戶所需, 所提供信息也是描述性的, 缺乏針對(duì)性、效用性、創(chuàng)新性、關(guān)聯(lián)性、主動(dòng)性和持續(xù)性。為此, 學(xué)界提出了知識(shí)服務(wù)這個(gè)概念, 通過(guò)知識(shí)服務(wù)進(jìn)行用戶需要及用戶背景分析, 從各種顯性和隱性知識(shí)資源中, 將所需信息進(jìn)行提煉、重組、加工、集成并以更為直觀的方式呈現(xiàn)給用戶, 國(guó)內(nèi)圖書情報(bào)界也將知識(shí)服務(wù)列入未來(lái)的發(fā)展方向之一 。本文通過(guò)對(duì)萬(wàn)方數(shù)據(jù)/中國(guó)科技分析評(píng)價(jià)服務(wù)平臺(tái)0數(shù)據(jù)庫(kù)中2003- 2007年間的發(fā)文數(shù)據(jù)相關(guān)信息(作者、機(jī)構(gòu)、關(guān)鍵詞等)進(jìn)行數(shù)據(jù)清洗和規(guī)范, 提出在機(jī)構(gòu)實(shí)體識(shí)別的基礎(chǔ)上進(jìn)行作者識(shí)別, 結(jié)合關(guān)鍵詞進(jìn)行關(guān)聯(lián)分析,對(duì)構(gòu)成知識(shí)服務(wù)基礎(chǔ)的信息資源進(jìn)行重新組織。作者及機(jī)構(gòu)實(shí)體等知識(shí)的識(shí)別, 有助于通過(guò)作者、機(jī)構(gòu)、文檔進(jìn)行相關(guān)知識(shí)的組織, 并在此基礎(chǔ)上, 揭示作者、機(jī)構(gòu)、文檔間潛在關(guān)系, 通過(guò)這些潛在關(guān)系構(gòu)建語(yǔ)義檢索網(wǎng)絡(luò)。

2 國(guó)內(nèi)外研究現(xiàn)狀

自從智能檢索概念提出以來(lái), 國(guó)外研究學(xué)者通過(guò)共引、共現(xiàn)等分析方法對(duì)文檔間潛在關(guān)系做了一系列理論以及應(yīng)用研究: Blair等通過(guò)比較關(guān)鍵詞共現(xiàn)以及字符串相似度計(jì)算考察了檢索效率, 他們提出的關(guān)鍵詞共現(xiàn)分析隨后成為文檔知識(shí)檢索理論的基礎(chǔ)[ 4];Chen等通過(guò)一個(gè)包含20 000條知識(shí)概念以及280000條概念間相互關(guān)系的敘詞表構(gòu)建了智能檢索系統(tǒng)[ 5],并提出算法提取敘詞表中相關(guān)詞匯知識(shí) ; Berry等提出基于文本特征詞的文檔矩陣空間, 并通過(guò)余弦?jiàn)A角計(jì)算其相似度[ 7] , 這種檢索方式被稱為潛在語(yǔ)義索引( Latent Sem ant ic Index ing, LSI); 潛在語(yǔ)義索引具有可計(jì)算性強(qiáng), 需要人參與少等優(yōu)點(diǎn), 因而眾多學(xué)者紛紛對(duì)其進(jìn)行改進(jìn)以提高相關(guān)文檔知識(shí)檢索效率[ 8- 10] 。以上研究從內(nèi)容分析角度出發(fā), 利用共引、共現(xiàn)等方法揭示文獻(xiàn)中知識(shí)概念潛在關(guān)系。


另外, 與文獻(xiàn)相關(guān)的知識(shí), 如作者、機(jī)構(gòu)等也成為揭示文獻(xiàn)潛在關(guān)系的研究熱點(diǎn)。當(dāng)前通過(guò)作者、機(jī)構(gòu)以及相關(guān)知識(shí)點(diǎn)進(jìn)行信息網(wǎng)絡(luò)服務(wù)已成為國(guó)內(nèi)外信息服務(wù)商的主要服務(wù)方式, 如CNK I的知網(wǎng)平臺(tái)、萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)等。但是, 筆者也注意到由于作者署名不同以及同名情況的出現(xiàn)對(duì)檢索推薦會(huì)造成一定影響, 這種情況被稱為同名歧義( Nam eAmbiguity) , 因而在提供學(xué)術(shù)知識(shí)服務(wù)時(shí), 需要對(duì)作者實(shí)體加以抽取、識(shí)別, 并以此為基礎(chǔ)進(jìn)行相關(guān)知識(shí)發(fā)現(xiàn), 這項(xiàng)研究被稱為同名消歧( Nam e D isambiguation)。Scopus在作者識(shí)別方面做了許多努力, 現(xiàn)在已經(jīng)在其檢索服務(wù)中提供了/ Search for Author0作者檢索功能[ 11] 。/開放研究人員和貢獻(xiàn)者ID0 ( ORCID)在湯姆森路透社、自然出版集團(tuán)、愛(ài)思唯爾出版社、斯普林格出版社、大英圖書館和韋爾科姆信托基金會(huì)等23個(gè)國(guó)際知名組織的支持下,針對(duì)每個(gè)科研人員獨(dú)特設(shè)置的、唯一的標(biāo)識(shí), 有效區(qū)分受不同文化下的姓名排序、名字縮寫的不一致性或使用不同字母而引起的名字變化, 進(jìn)而能夠?qū)γ總€(gè)科研人員的綜合學(xué)術(shù)成就和貢獻(xiàn)加以評(píng)價(jià)[ 12]。在中文作者實(shí)體識(shí)別時(shí), 筆者注意到, 這種識(shí)別通常與作者署名機(jī)構(gòu)相關(guān)。由于機(jī)構(gòu)名存在縮略語(yǔ)、數(shù)字以及其他不規(guī)范情況, 有必要對(duì)相關(guān)機(jī)構(gòu)進(jìn)行實(shí)體識(shí)別, 在機(jī)構(gòu)實(shí)體識(shí)別的基礎(chǔ)上進(jìn)一步對(duì)作者實(shí)體進(jìn)行識(shí)別, 目前此種研究影響力較大的為社會(huì)網(wǎng)絡(luò)分析法[ 13, 14] 。通過(guò)社會(huì)網(wǎng)絡(luò)分析法, 可以揭示學(xué)者、機(jī)構(gòu)等命名實(shí)體間的合作關(guān)系, 消除由于署名不同(如作者單位)所造成的歧義。本文在以上研究的基礎(chǔ)上, 對(duì)萬(wàn)方數(shù)據(jù)2003 -2007年間期刊論文數(shù)據(jù)中作者、機(jī)構(gòu)、關(guān)鍵詞等信息進(jìn)行數(shù)據(jù)清洗。在此基礎(chǔ)上, 對(duì)作者署名機(jī)構(gòu)進(jìn)行基于規(guī)范的實(shí)體識(shí)別, 結(jié)合作者信息進(jìn)行作者實(shí)體識(shí)別,這種識(shí)別可以消除由于作者同名歧義、機(jī)構(gòu)名歧義帶來(lái)的檢索困難。在實(shí)體識(shí)別的基礎(chǔ)上, 通過(guò)空間向量相似度、合著關(guān)系等方法, 將作者、機(jī)構(gòu)、文檔等相關(guān)知識(shí)重新組織, 為進(jìn)一步智能檢索進(jìn)行了實(shí)踐性探索。


3 基于文獻(xiàn)的相關(guān)知識(shí)發(fā)現(xiàn)處理過(guò)程

目前, 信息檢索的方式仍是主要通過(guò)用戶檢索式進(jìn)行詞面匹配, 由于用戶對(duì)于某一概念的理解和表述存在差異, 這種檢索方式難以滿足檢索需要。同時(shí), 由于用戶檢索式通常以自然語(yǔ)言形式呈現(xiàn), 這給用戶檢索相關(guān)文檔的獲取帶來(lái)了一定難度。對(duì)此, 國(guó)內(nèi)外學(xué)者紛紛展開研究, 希望通過(guò)各種知識(shí)發(fā)現(xiàn)機(jī)制實(shí)現(xiàn)智能檢索, 對(duì)用戶檢索進(jìn)行智能擴(kuò)展, 如基于語(yǔ)義的知識(shí)服務(wù) 。本文以萬(wàn)方數(shù)據(jù)2003- 2007年間2 374 307條發(fā)文記錄為數(shù)據(jù)來(lái)源, 在數(shù)據(jù)清洗基礎(chǔ)上對(duì)作者、機(jī)構(gòu)、文檔進(jìn)行相似度計(jì)算, 其中借鑒了共現(xiàn)分析、社會(huì)網(wǎng)絡(luò)分析、空間向量模型等方法, 挖掘文檔間潛在知識(shí)關(guān)系, 其主要研究思路如圖1所示:

3. 1 信息抽取

科技文獻(xiàn)信息檢索主要通過(guò)作者、關(guān)鍵詞、標(biāo)題、摘要等字段獲取, 因而檢索效率有待改進(jìn), 這主要表現(xiàn)在以下幾個(gè)方面:

(1)使用作者進(jìn)行檢索時(shí), 往往由于重名或者作者機(jī)構(gòu)變更使得還需通過(guò)作者學(xué)科等其他信息進(jìn)行二次檢索;

(2)通過(guò)關(guān)鍵詞進(jìn)行檢索時(shí), 由于用戶對(duì)關(guān)鍵詞的選擇, 往往出現(xiàn)漏檢、誤檢;

(3)通過(guò)標(biāo)題及摘要等字段進(jìn)行檢索時(shí), 往往出現(xiàn)檢索結(jié)果過(guò)多的情況, 查準(zhǔn)率較低;

(4)作者間相互關(guān)系、檢索主題擴(kuò)展、以及文獻(xiàn)相關(guān)知識(shí)聯(lián)系有待挖掘。為了解決以上問(wèn)題, 抽取萬(wàn)方數(shù)據(jù)2003- 2007年間發(fā)文數(shù)據(jù)記錄, 并按照作者、機(jī)構(gòu)、論文、基金項(xiàng)目、主題詞、學(xué)科等進(jìn)行分維設(shè)計(jì), 隨后對(duì)各表進(jìn)行規(guī)范處理, 同時(shí)創(chuàng)建索引及表間映射, 以便進(jìn)行命名實(shí)體識(shí)別以及相似度計(jì)算。


3. 2 命名實(shí)體識(shí)別

(1)作者及機(jī)構(gòu)識(shí)別

在學(xué)術(shù)文獻(xiàn)海量級(jí)增長(zhǎng)的情況下, 以作者為中心展示學(xué)術(shù)文獻(xiàn), 日漸成為面向?qū)W科領(lǐng)域?qū)嵤┲R(shí)服務(wù)的需要。德國(guó)特里爾大學(xué)的M ichaelL ey通過(guò)XML存儲(chǔ)元數(shù)據(jù)的方式開發(fā)了DBLP ( Digital B ibliography&Library Project)  , 以作者為中心對(duì)計(jì)算機(jī)領(lǐng)域論文進(jìn)行了系統(tǒng)的分類(按期刊、會(huì)議); 中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室利用面向領(lǐng)域的數(shù)據(jù)集成技術(shù), 從Web中集成計(jì)算機(jī)領(lǐng)域的部分權(quán)威中文期刊和學(xué)術(shù)會(huì)議論文的信息, 向用戶提供以文獻(xiàn)作者為中心的檢索服務(wù)[ 17] 。這種以作者為中心的檢索, 主要通過(guò)作者名、作者單位等信息進(jìn)行檢索, 由于數(shù)據(jù)庫(kù)記錄存在的局限性, 即作者信息以及機(jī)構(gòu)信息往往產(chǎn)生一些署名歧義, 從而使通過(guò)作者、機(jī)構(gòu)檢索, 以及通過(guò)作者、機(jī)構(gòu)進(jìn)行關(guān)系分析具有一定困難。

通過(guò)對(duì)現(xiàn)有數(shù)據(jù)的觀察, 筆者注意到中文機(jī)構(gòu)信息的主要來(lái)源是論文文摘中的作者單位名稱, 主要包括所屬單位的名稱、單位所在的省份城市、單位地址、郵編等信息。由于學(xué)術(shù)論文中作者單位沒(méi)有統(tǒng)一規(guī)范, 同一機(jī)構(gòu)往往出現(xiàn)歧義現(xiàn)象, 例如簡(jiǎn)寫、數(shù)字表達(dá)、單位名稱變更、單位層級(jí)關(guān)系等。不同類型機(jī)構(gòu)(如教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、科研院所、企業(yè)單位等) , 其消除歧義的規(guī)則也不盡相同。機(jī)構(gòu)實(shí)體識(shí)別的主要流程如圖2所示。

對(duì)機(jī)構(gòu)信息進(jìn)行預(yù)處理, 通過(guò)通訊信息獲取機(jī)構(gòu)所處地區(qū)信息, 并通過(guò)縮略語(yǔ)匹配對(duì)機(jī)構(gòu)名稱中的縮略語(yǔ)進(jìn)行統(tǒng)一規(guī)范。隨后對(duì)機(jī)構(gòu)通過(guò)類別中心詞匹配進(jìn)行分類判定(如大學(xué)、學(xué)校、醫(yī)院、衛(wèi)生所、研究所、學(xué)院等), 提取一級(jí)機(jī)構(gòu)名, 根據(jù)不同機(jī)構(gòu)類別對(duì)照規(guī)范表進(jìn)行匹配。對(duì)于機(jī)構(gòu)規(guī)范表, 筆者通過(guò)教育部全國(guó)普通高校名單、萬(wàn)方數(shù)據(jù)- 企業(yè)信息網(wǎng)、中央企業(yè)名錄以及人工統(tǒng)計(jì)等方式獲得。需要說(shuō)明的是: 對(duì)于教育機(jī)構(gòu), 機(jī)構(gòu)規(guī)范表主要依據(jù)教育部全國(guó)普通高校名單;對(duì)于科研院所, 主要依據(jù)中國(guó)科學(xué)院以及其下屬院所名單; 對(duì)于企業(yè)機(jī)構(gòu), 規(guī)范主要依據(jù)萬(wàn)方數(shù)據(jù)- 企業(yè)信息網(wǎng)以及中央企業(yè)名錄獲取; 對(duì)于醫(yī)療機(jī)構(gòu), 則主要通過(guò)人工統(tǒng)計(jì)方式獲得; 除此以外, 對(duì)于以上仍不能識(shí)別的機(jī)構(gòu), 通過(guò)提取特征詞分類(如學(xué)校、醫(yī)院、企業(yè)、公司、衛(wèi)生所、股份有限等), 將其初步劃分到教育機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)、科研院所、企業(yè)單位等類型后, 再進(jìn)行人工統(tǒng)計(jì)。

在機(jī)構(gòu)識(shí)別的基礎(chǔ)上, 對(duì)作者進(jìn)行了實(shí)體識(shí)別, 主要通過(guò)作者名以及所屬單位進(jìn)行關(guān)聯(lián)分析。這種分析的目的有:

1 識(shí)別同一作者多個(gè)機(jī)構(gòu), 這主要是由于作者署名多個(gè)機(jī)構(gòu)單位所致;

o 解決不同作者重名, 對(duì)于同名作者, 結(jié)合社會(huì)網(wǎng)絡(luò)分析中合著網(wǎng)絡(luò)以及引用網(wǎng)絡(luò), 對(duì)作者進(jìn)行了重名消歧。通過(guò)作者以及機(jī)構(gòu)識(shí)別, 獲取了規(guī)范處理后的作者實(shí)體表及機(jī)構(gòu)實(shí)體表, 以便進(jìn)行關(guān)聯(lián)分析。

(2)主題詞表構(gòu)建

在學(xué)術(shù)文獻(xiàn)中, 由于關(guān)鍵詞的自然語(yǔ)言特性, 因而其缺乏規(guī)范, 必須對(duì)其進(jìn)行清洗, 消除相同概念詞面的差異。這種差異主要由以下兩個(gè)方面造成:

1 由于標(biāo)點(diǎn)符號(hào)造成的關(guān)鍵詞差異, 如 C+ + Builder0

o 由于表述造成差異, 如數(shù)字圖書館與數(shù)字化圖書館。在詞面消歧的基礎(chǔ)上, 筆者通過(guò)ICTCLAS分詞組件 對(duì)文獻(xiàn)標(biāo)題、關(guān)鍵詞以及摘要進(jìn)行分詞, 結(jié)合停用詞表, 構(gòu)建主題詞表。在構(gòu)建主題詞表時(shí), 對(duì)其中的常見(jiàn)詞, 如/研究、應(yīng)用進(jìn)行過(guò)濾, 主要通過(guò)考察該類詞語(yǔ)在學(xué)科領(lǐng)域內(nèi)的分布情況來(lái)確定。其計(jì)算方法如下:


其中, Pi j = Ti j /Lj, L j 是類Cj的文檔數(shù), T i j是含有詞Wi 并屬于類Cj的文檔數(shù); ?Pi = 6jPij / m, m 為總的類別數(shù)。N ( w i ) 是包含Wi 的文檔數(shù), N 為總文檔數(shù)。Freqwi是Wi 作為關(guān)鍵詞出現(xiàn)的次數(shù)。


在式( 1) 中, 第一部分是計(jì)算W i的分布均勻情況, W i分布越均勻, 方差越小, 重要性也就越低。在這里, 根據(jù)每篇論文的中圖法分類號(hào)對(duì)論文進(jìn)行分類, 具體來(lái)說(shuō), 根據(jù)論文的分類號(hào), 找出分類號(hào)對(duì)應(yīng)的學(xué)科,然后以學(xué)科作為類目, 比如/管理學(xué)、經(jīng)濟(jì)學(xué)、其他學(xué)科等。雖然各個(gè)學(xué)科的論文數(shù)不均勻, 但在計(jì)算Pij時(shí)已經(jīng)除以類目的總論文數(shù), 所以可以不用考慮。第二部分是計(jì)算Wi 的倒文檔頻率IDF。目前, 已有學(xué)者通過(guò)實(shí)驗(yàn)證明[ 19] , 平方后的效果最好。第三部分是Wi的頻次, 這是因?yàn)? 如果很多論文都把這個(gè)詞當(dāng)作是關(guān)鍵詞, 那么這個(gè)詞一般來(lái)說(shuō)是有意義的主題詞(也有例外, 比如很多論文都把/分析研究0加到關(guān)鍵詞字段中, 這其實(shí)是不合適的)。


通過(guò)式( 1)計(jì)算出來(lái)的得分, 大體上可以反映一個(gè)詞的重要程度。刪除一部分常見(jiàn)詞, 為文檔相似計(jì)算減小主題詞向量空間的記錄數(shù), 降低運(yùn)算量, 同時(shí)也可以避免一些錯(cuò)誤的判斷。通過(guò)主題詞表構(gòu)建, 筆者獲取了規(guī)范處理后的主題詞表, 生成文檔主題詞矩陣,以便進(jìn)行潛在語(yǔ)義索引。



3. 3 關(guān)聯(lián)分析

在命名實(shí)體識(shí)別的基礎(chǔ)上, 獲得了作者實(shí)體表、機(jī)構(gòu)實(shí)體表、主題詞表, 結(jié)合文檔信息表, 進(jìn)行關(guān)聯(lián)分析,實(shí)現(xiàn)與某一主題相關(guān)資源的重組、有序化。這主要通過(guò)文檔相似度計(jì)算、主題相似度計(jì)算、作者相關(guān)度計(jì)算、機(jī)構(gòu)相關(guān)度計(jì)算實(shí)現(xiàn)。其主要流程如圖3所示。

(1) 文檔及主題詞相似度計(jì)算

在主題詞表構(gòu)建基礎(chǔ)上, 構(gòu)建文檔主題詞矩陣, 取評(píng)分前N 名的文檔記錄到數(shù)據(jù)庫(kù)中。評(píng)分代表了一個(gè)詞在一篇文檔中的重要程度。N 的取值同樣非常重要, 如果過(guò)小, 那么相似度計(jì)算結(jié)果會(huì)很不理想; 相反如果過(guò)大, 記錄數(shù)太多, 計(jì)算相似度生成的中間表會(huì)非常大, 并且很費(fèi)時(shí), 所以這里要根據(jù)服務(wù)器的能力選擇

合適的N。在文檔相似度計(jì)算時(shí), 將每篇文檔看作主題詞構(gòu)成的向量空間, 空間中每個(gè)維度的取值即為文檔主題詞矩陣中的評(píng)分。文檔間相似度計(jì)算, 即為向量間夾角余弦值計(jì)算, 兩篇文檔越相似, 其向量夾角越小, 余弦值越大。其計(jì)算公式為:

C os( A, B) = A# B / |A | * |B |

其中, A、B分別為兩篇文檔主題詞向量空間。在實(shí)驗(yàn)中筆者發(fā)現(xiàn), 由于記錄數(shù)太多, 為減少計(jì)算量, 對(duì)相似度小于0. 1的記錄可進(jìn)行刪除。主題詞相似度計(jì)算同文檔相似度計(jì)算部分很類似, 不同的是這時(shí)需要將主題詞看成是其出現(xiàn)的文檔組成的向量。通過(guò)文檔以及主題詞相似度計(jì)算, 獲取文檔、主題詞相似表, 并以此實(shí)現(xiàn)相關(guān)智能檢索推薦。


(2) 作者及機(jī)構(gòu)相關(guān)度計(jì)算

在作者實(shí)體識(shí)別的基礎(chǔ)上, 根據(jù)文檔主題詞矩陣,以及文檔作者對(duì)應(yīng)關(guān)系, 同樣可以計(jì)算作者主題詞矩陣, 進(jìn)而計(jì)算作者間的相關(guān)度。但在實(shí)驗(yàn)中發(fā)現(xiàn), 這種計(jì)算代價(jià)過(guò)大, 且相似結(jié)果值過(guò)小。假若有50萬(wàn)主題詞, 每個(gè)主題詞平均與20篇文檔對(duì)應(yīng), 而假設(shè)每篇文檔平均與三位作者對(duì)應(yīng), 那么矩陣的記錄數(shù)將達(dá)到90 000萬(wàn)條, 在實(shí)際計(jì)算中實(shí)現(xiàn)較為困難,且由于作者規(guī)模比較大, 則相似度反之非常小。因而, 主要通過(guò)合著關(guān)系,計(jì)算作者間相關(guān)度1 , 具體計(jì)算參照相關(guān)系數(shù), 公式如下:

其中, CoF req(A, B)為作者A與作者B的合作發(fā)文數(shù), CoF req(A, doc)與CoFreq( B, doc)分別為作者A、B的所有發(fā)文數(shù)。機(jī)構(gòu)相關(guān)度計(jì)算同作者相關(guān)度計(jì)算, 這里不再贅述。通過(guò)作者及機(jī)構(gòu)相關(guān)度計(jì)算, 獲取作者以及機(jī)構(gòu)間合著關(guān)系度, 并以此作為作者及機(jī)構(gòu)智能檢索拓展。

4 應(yīng)用及效果評(píng)價(jià)

通過(guò)對(duì)作者及機(jī)構(gòu)實(shí)體的識(shí)別, 可以構(gòu)建基于作者及機(jī)構(gòu)的學(xué)術(shù)信息知識(shí)網(wǎng)絡(luò), 并據(jù)此統(tǒng)計(jì)相關(guān)作者及機(jī)構(gòu)的發(fā)文數(shù)、被引數(shù)、H 指數(shù)、學(xué)科分布、期刊分布以及合作關(guān)系等。機(jī)構(gòu)實(shí)體識(shí)別通過(guò)預(yù)處理、分類、規(guī)則匹配、待定機(jī)構(gòu)處理等幾個(gè)步驟解決了檢索過(guò)程中由于機(jī)構(gòu)信息模糊引發(fā)的檢索擴(kuò)展等問(wèn)題。作者實(shí)體識(shí)別通過(guò)聯(lián)合機(jī)構(gòu)、社會(huì)網(wǎng)絡(luò)分析法去重解決了同名歧義、同作者多個(gè)機(jī)構(gòu)等問(wèn)題。在實(shí)體識(shí)別基礎(chǔ)上, 通過(guò)文檔主題詞清洗, 獲取相關(guān)機(jī)構(gòu)知識(shí)、作者知識(shí)。這其中使用了空間向量法、社會(huì)網(wǎng)絡(luò)分析法, 并對(duì)其中的應(yīng)用效果進(jìn)行了比較。

4. 1 機(jī)構(gòu)知識(shí)獲取

基于規(guī)則對(duì)萬(wàn)方數(shù)據(jù)2003- 2007年間中機(jī)構(gòu)實(shí)體進(jìn)行規(guī)范識(shí)別, 獲取機(jī)構(gòu)實(shí)體知識(shí)。機(jī)構(gòu)實(shí)體識(shí)別主要通過(guò)機(jī)構(gòu)抽取、預(yù)處理、分類、匹配等步驟完成, 識(shí)別結(jié)果情況如表1所示:表1 2003- 2007年間萬(wàn)方數(shù)據(jù)機(jī)構(gòu)實(shí)體識(shí)別應(yīng)用統(tǒng)計(jì)

通過(guò)機(jī)構(gòu)實(shí)體識(shí)別, 獲取了萬(wàn)方數(shù)據(jù)2003- 2007年間發(fā)文中203 165條機(jī)構(gòu)實(shí)體數(shù)據(jù), 結(jié)合發(fā)文情況,發(fā)現(xiàn)規(guī)范表中機(jī)構(gòu)發(fā)文占總量的81.47%, 這說(shuō)明通過(guò)規(guī)范表識(shí)別機(jī)構(gòu)具有較高的準(zhǔn)確度。機(jī)構(gòu)實(shí)體識(shí)別解決了以下問(wèn)題:

(1)作者單位名存在簡(jiǎn)稱;

(2)作者機(jī)構(gòu)名不規(guī)范, 如存在數(shù)字;

(3)單位變更名稱;

(4) 單位名存在層級(jí)關(guān)系導(dǎo)致一級(jí)機(jī)構(gòu)名不能識(shí)別。以南京大學(xué)為例, 通過(guò)機(jī)構(gòu)實(shí)體識(shí)別, 最終獲取了萬(wàn)方數(shù)據(jù)2003- 2007年間以/南京大學(xué)0作為發(fā)文機(jī)構(gòu)的相關(guān)知識(shí), 如表2所示:

通過(guò)機(jī)構(gòu)實(shí)體識(shí)別, 可以更為全面、準(zhǔn)確地獲取相關(guān)研究機(jī)構(gòu)學(xué)術(shù)信息, 作為相關(guān)機(jī)構(gòu)科研評(píng)價(jià)的堅(jiān)實(shí)基礎(chǔ)。

4. 2 作者知識(shí)獲取

機(jī)構(gòu)實(shí)體的有效識(shí)別有助于隨后的作者實(shí)體識(shí)別, 結(jié)合社會(huì)網(wǎng)絡(luò)分析法, 筆者對(duì)同名作者進(jìn)行了區(qū)分, 并對(duì)對(duì)應(yīng)多個(gè)機(jī)構(gòu)的同一作者進(jìn)行了合并, 獲取了基于機(jī)構(gòu)實(shí)體的作者知識(shí), 具體應(yīng)用效果如圖4所示:


結(jié)合機(jī)構(gòu)實(shí)體進(jìn)行的作者實(shí)體識(shí)別, 可以有效區(qū)別同名用戶, 并對(duì)同一作者對(duì)應(yīng)多個(gè)單位進(jìn)行實(shí)體唯一識(shí)別。這種唯一識(shí)別解決了以下問(wèn)題:

(1)同名歧義, 對(duì)同名作者進(jìn)行了實(shí)體區(qū)分;

(2)以學(xué)者科研經(jīng)歷為中心體現(xiàn)了學(xué)者學(xué)術(shù)研究

發(fā)展情況, 如教育背景、研究領(lǐng)域、合作關(guān)系等。作者實(shí)體識(shí)別有助于通過(guò)作者實(shí)體構(gòu)建知識(shí)網(wǎng)絡(luò), 進(jìn)而以作者為中心展現(xiàn)其學(xué)術(shù)信息以及相關(guān)知識(shí),如學(xué)科分布、發(fā)文情況、被引情況、H 指數(shù)、合作情況等, 具體應(yīng)用效果如圖5所示。

4. 3 其他應(yīng)用

通過(guò)作者實(shí)體以及機(jī)構(gòu)實(shí)體的識(shí)別, 可以圍繞作者及機(jī)構(gòu)構(gòu)建相關(guān)知識(shí)網(wǎng)絡(luò), 并通過(guò)主題詞表的構(gòu)建,進(jìn)一步測(cè)算其相關(guān)度, 結(jié)合本文關(guān)聯(lián)分析所述, 筆者對(duì)

具體相關(guān)度測(cè)算進(jìn)行了實(shí)際效果的比較。對(duì)于文檔以及主題詞相似度, 主要通過(guò)空間向量距離進(jìn)行計(jì)算, 挖掘文檔及主題詞間潛在關(guān)系。對(duì)于作者以及機(jī)構(gòu)相關(guān)度, 主要通過(guò)合作關(guān)系進(jìn)行計(jì)算, 需要說(shuō)明的是, 這些計(jì)算都以實(shí)體識(shí)別為基礎(chǔ), 這種基于規(guī)則的實(shí)體識(shí)別準(zhǔn)確度較高, 可以很好地解決檢索中存在的實(shí)體甄別問(wèn)題, 為學(xué)術(shù)評(píng)價(jià)以及其他知識(shí)應(yīng)用打下堅(jiān)實(shí)基礎(chǔ)。


5 結(jié) 語(yǔ)

本文采集了萬(wàn)方數(shù)據(jù)2003- 2007年間期刊論文數(shù)據(jù), 通過(guò)信息抽取、分維獲取文獻(xiàn)相關(guān)信息表, 并對(duì)文獻(xiàn)相關(guān)命名實(shí)體知識(shí)(作者、機(jī)構(gòu))進(jìn)行有效識(shí)別,規(guī)范了文獻(xiàn)主題詞表。在此基礎(chǔ)上, 通過(guò)文檔及主題詞相似度計(jì)算, 作者以及機(jī)構(gòu)相關(guān)度計(jì)算, 挖掘文獻(xiàn)間潛在知識(shí)關(guān)聯(lián), 便于用戶智能檢索。在實(shí)踐中, 仍存在一些問(wèn)題有待改進(jìn):

(1)對(duì)于機(jī)構(gòu)及作者識(shí)別, 對(duì)于論文信息作者及機(jī)構(gòu)識(shí)別準(zhǔn)確度較高, 但引入論文涉及基金申請(qǐng)人及機(jī)構(gòu)、國(guó)家科技獎(jiǎng)勵(lì)人員及機(jī)構(gòu)后, 仍需進(jìn)一步提高識(shí)別率。

(2)對(duì)于主題詞相似度計(jì)算, 主要通過(guò)向量空間計(jì)算完成, 對(duì)于主題詞間上下位關(guān)系等知識(shí), 需進(jìn)一步通過(guò)相關(guān)主題詞表如5中國(guó)圖書館分類法6、HowNet等進(jìn)一步改進(jìn)。


謝 靖 江 嵐 王東波 蘇新寧    (南京大學(xué)信息管理系 南京210093)

【關(guān)鍵詞】 知識(shí)發(fā)現(xiàn) 萬(wàn)方數(shù)據(jù) 命名實(shí)體識(shí)別 相似度計(jì)算 智能推薦

在線咨詢
在線留言
系統(tǒng)列表
返回頂部