時(shí)間:2014-09-23 編輯整理:早檢測(cè)網(wǎng) 來源:早檢測(cè)網(wǎng)
在Google和Baidu中對(duì)“抄襲”進(jìn)行搜索,得到百度百科中對(duì)“抄襲”的定義:“抄襲指竊取他人的作品當(dāng)作自己的。包括完全照抄他人作品和在一定程度上改變其形式或內(nèi)容的行為。是一種嚴(yán)重侵犯他人著作權(quán)的行為,同時(shí)也是在著作權(quán)審判實(shí)踐中較難認(rèn)定的行為。抄襲檢測(cè)是從內(nèi)容的相似度上對(duì)抄襲行為進(jìn)行判定。
抄襲檢測(cè)技術(shù)起步于20世紀(jì)70年代,主要是軟件剽竊檢測(cè)方面的研究,后來自然語言的重復(fù)檢測(cè)技術(shù)在90年代之后得到了較快發(fā)展。抄襲檢測(cè)是基于龐大的現(xiàn)有文檔數(shù)據(jù)庫進(jìn)行的,通過提取待檢測(cè)文檔的特征——關(guān)鍵詞、詞的使用頻率、詞的位置,在以詞為索引以文檔序號(hào)等為內(nèi)容的倒排索引文件中進(jìn)行搜索,搜出包含這些詞的文檔,然后將待檢測(cè)文檔的特征分別與這些文檔的特征進(jìn)行相似度運(yùn)算,以相似度為指標(biāo)得出抄襲程度的結(jié)論。此文中,文檔定義為建立索引的文本單位,可以是一篇論文,也可以是段落甚至句子。抄襲檢測(cè)的核心工作流程如圖1所示。
(1)文檔分析。以句子為單位進(jìn)行內(nèi)容比較是一種較為簡單的實(shí)現(xiàn),當(dāng)前一些網(wǎng)站提供這樣的抄襲檢測(cè)服務(wù):其利用Google、Baidu等搜索引擎分別逐條以句子為單位進(jìn)行搜索,得出每一句是否為原創(chuàng)的判定,并最終通過計(jì)數(shù)來計(jì)算出原創(chuàng)度。但是這樣的服務(wù)是基于反復(fù)進(jìn)行網(wǎng)絡(luò)搜索實(shí)現(xiàn)的,要耗用較長的時(shí)間,而且因一字之差就會(huì)得出兩個(gè)相似的句子為不相同的結(jié)論,所以只能檢測(cè)出很原始懶惰的抄襲,這樣的服務(wù)實(shí)用性很差。以句子為索引進(jìn)行查詢幾乎是不可能的。事實(shí)上查詢是以詞為單位進(jìn)行的。待檢測(cè)文檔提取了這樣的文檔特征信息: 關(guān)鍵詞(WordID)、詞的使用頻率(NHits)、詞的位置(HitList),如表1所示。
在這里最重要的技術(shù)是分詞技術(shù),也稱切詞。以簡單例子說明,對(duì)于“學(xué)歷史學(xué)好”這個(gè)句子,人很容易正確理解,但對(duì)于機(jī)器來說,卻可能分成“學(xué)歷/史學(xué)/好”、“學(xué)/歷史/學(xué)好”、“學(xué)/歷史學(xué)/好”等。目前的分詞手段主要依靠了字典和統(tǒng)計(jì)學(xué)的方法。具體有“最大匹配法”、“N-Gram”等方法?!白畲笃ヅ浞ā笨偸钦J(rèn)為最大匹配的詞匯最優(yōu),但是局部最優(yōu)很有可能不是全局最優(yōu)?!癗-Gram”采取N單位長度的逐字切分方法,照顧了所有可能,但是同時(shí)其關(guān)鍵詞表卻很大,這對(duì)于要盡力壓縮索引表的目標(biāo)來說是很不經(jīng)濟(jì)的。由于語言的多樣化,沒有哪個(gè)分詞方法能解決全部的問題,這也正是許多科學(xué)家開展更深入研究的動(dòng)力。
(2)索引技術(shù)。為了查詢哪些文檔包含了這些關(guān)鍵詞,以及詞的位置信息,需要建立一個(gè)以詞為索引以文檔序號(hào)等為內(nèi)容的索引文件,其基本格式如表2所示,稱為倒排索引。
Wordn是一個(gè)詞匯序號(hào),通過詞典找到Wordn的位置,然后通過DocList位置域存放的位置信息找到記錄表。記錄表中的一個(gè)記錄由文檔編號(hào)(DocID)、索引詞在文檔中命中的次數(shù)(NHits)、命中的位置列表(Hitlist)組成。倒排索引是相對(duì)于正排索引定義的,正排索引以文檔序號(hào)為索引,在對(duì)文檔進(jìn)行分詞時(shí)創(chuàng)建。正排索引不能滿足全文檢索的需要,它只是在創(chuàng)造倒排索引時(shí)存在于內(nèi)存之中。格式如表3所示。
部署時(shí),若索引文件的規(guī)模很大,為了效率、安全穩(wěn)定等多方面的因素,一般采取分布式部署,這樣同時(shí)也能加快倒排文件的創(chuàng)建與更新速度。分布式索引主要有兩種部署方式,以文檔編號(hào)(DocID)劃分的“局部倒排文件”和索引詞編號(hào)(WordID)劃分的“全局倒排文件”。
對(duì)于局部方案,每個(gè)索引節(jié)點(diǎn)負(fù)責(zé)對(duì)一個(gè)DocID區(qū)間的文檔進(jìn)行索引,在檢索時(shí),將檢索請(qǐng)求廣播到每個(gè)節(jié)點(diǎn),最后由檢索代理合并查詢結(jié)果。對(duì)于全局方案,索引節(jié)點(diǎn)按WordID將倒排文件分布式地存儲(chǔ)在不同的索引節(jié)點(diǎn)上,對(duì)于一個(gè)檢索請(qǐng)求,有可能在一個(gè)索引節(jié)點(diǎn)中進(jìn)行,也有可能分布在不同的索引節(jié)點(diǎn)上進(jìn)行。局部倒排文件具有可靠性高,降低負(fù)載,提高查詢效率的優(yōu)勢(shì)。而對(duì)于全局倒排文件,在多處理器多磁盤系統(tǒng)下,如果檢索詞均勻的被請(qǐng)求或索引詞分布偏差不大,則能夠避免局部倒排文件下檢索請(qǐng)求時(shí)必須排隊(duì)的弊端,在同時(shí)多個(gè)查詢請(qǐng)求時(shí)表現(xiàn)較優(yōu)。索引文件的規(guī)模是這樣估計(jì)的。根據(jù)齊普夫(Zipf)法則,第i個(gè)經(jīng)常使用詞匯的出現(xiàn)頻率和1/i成正比,設(shè)詞頻比例常數(shù)為C,則每個(gè)詞的出現(xiàn)頻率為C/i。假設(shè)詞匯數(shù)目為,則有
假定所有文檔內(nèi)容大小為S,抽取詞匯率為R,則布爾檢索模型下的倒排索引規(guī)模為
由此可見,索引的規(guī)模同資源文檔的大小成正比。在索引構(gòu)造技術(shù)中,應(yīng)用了大量數(shù)據(jù)壓縮技術(shù),完成大規(guī)模的倒排索引文件同時(shí)也是當(dāng)前搜索技術(shù)的核心難點(diǎn)。
(3)查詢技術(shù)。查詢到包含關(guān)鍵詞匯的所有文檔序號(hào)等內(nèi)容后,需要綜合運(yùn)用布爾模型和向量空間模型來求取相似度。布爾模型是指采用AND、OR及NOT等邏輯運(yùn)算符將多個(gè)查詢?cè)~連成一個(gè)邏輯表達(dá)式,繼而通過布爾運(yùn)算進(jìn)行檢索的模型。布爾模型表達(dá)簡單易于實(shí)現(xiàn),檢索速度快,但是不能進(jìn)行相關(guān)性排序,這一點(diǎn)不足在向量空間模型中得到部分解決。向量空間模型是將查詢?cè)~和文檔按照關(guān)鍵詞的緯度分別向量化,然后通過計(jì)算這兩個(gè)向量間的夾角余弦得到相似度。
向量包含了兩種含義:長度和方向。向量中每一個(gè)分量可以理解為各關(guān)鍵詞權(quán)重在緯度上的投影。而關(guān)鍵詞權(quán)重則受關(guān)鍵詞在文檔抽取詞匯中的出現(xiàn)頻率和詞的文檔頻率(表示在所有文檔中,出現(xiàn)本關(guān)鍵詞的文檔所占比率)的影響。經(jīng)典權(quán)重量化方法如TF/IDF方法。根據(jù)Claude Shannon(香農(nóng))的編碼理論,最理想的編碼是文檔詞匯的編碼長度的加權(quán)平均長度無限接近其熵。
由熵的定義知在理想編碼中,與熵的計(jì)算公式相對(duì)應(yīng),每個(gè)關(guān)鍵詞都做出了-pilog(pi)的長度貢獻(xiàn)。引申而來,對(duì)于一篇文檔來說,關(guān)鍵詞的編碼貢獻(xiàn)為匯的文檔頻率, 即IDF( inverse document frequency)。詞匯越是出現(xiàn)次數(shù)多且罕見,其對(duì)最終計(jì)算得到的平均編碼長度的大小貢獻(xiàn)越大。TF*IDF即是關(guān)鍵詞的權(quán)重,這就是經(jīng)典的TF/IDF方法。如“抄襲檢測(cè)技術(shù),抄襲檢測(cè)”這個(gè)文檔,若“抄襲檢測(cè)”文檔頻率為1/4096, 技術(shù)的文檔頻率為1/64, 則向量為( 2/3*log(4096),1/3*log(64))=(8, 2)。這樣使得高頻詞能夠很好的降低權(quán)重,更好地體現(xiàn)文檔特征。根據(jù)布爾模型,對(duì)文檔列表求交集,得到包含關(guān)鍵詞的文檔特征
列表,通過計(jì)算這些文檔向量和查詢向量的夾角余弦求得向量相似度,再采取堆排序等排序方法取出Top-n,即得到了最相似的n篇文檔及其相似度。在以一定的閾值對(duì)文檔的相似度進(jìn)行判定即可得出抄襲程度的結(jié)論。
當(dāng)前市場(chǎng)上有多款抄襲檢測(cè)產(chǎn)品。如美國iParadigms公司開發(fā)的Turnitin抄襲檢測(cè)平臺(tái),對(duì)比的資源包括網(wǎng)絡(luò)資源和學(xué)術(shù)論文庫等,被廣泛用于對(duì)學(xué)生作業(yè)的原創(chuàng)性檢測(cè)和評(píng)分。我國的AMLC系統(tǒng)采用了多階指紋快速檢測(cè)技術(shù)和學(xué)術(shù)文獻(xiàn)規(guī)范文檔,以文章的全文、章節(jié)、段落、句子為單元進(jìn)行檢測(cè),并已建立了5,000多萬篇文獻(xiàn)的多階指紋比對(duì)庫,包括“中國知網(wǎng)”出版的《中國學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫》中的學(xué)術(shù)期刊、大量博碩士學(xué)位論文、會(huì)議論文、專利、標(biāo)準(zhǔn)、科技成果報(bào)告、年鑒、工具書、報(bào)紙,以及斯普林格數(shù)據(jù)庫等15種大型中外文數(shù)據(jù)庫,當(dāng)前在高校及出版社得到了一定的應(yīng)用。
Turnitin對(duì)比了更廣泛的資源,具有查詢廣度的優(yōu)勢(shì);AMLC則通過多層次逐步細(xì)化粒度的策略在檢測(cè)范圍內(nèi)能更精細(xì)地進(jìn)行檢測(cè)。
抄襲檢測(cè)技術(shù)利用特征提取技術(shù),對(duì)相對(duì)直接的拷貝或簡單的改動(dòng)具有很好的檢測(cè)效果,但其技術(shù)特點(diǎn)同時(shí)也暴露了其明顯的軟肋。如同與抄襲檢測(cè)技術(shù)很有淵源的搜索引擎技術(shù),對(duì)語言的理解仍然有很大發(fā)展空間,如分詞技術(shù)、同義詞處理、尤其是跨語言的處理。互聯(lián)網(wǎng)具有浩瀚的優(yōu)質(zhì)信息,從檢測(cè)范圍上來說,對(duì)其進(jìn)行處理是必須的,這需要應(yīng)用網(wǎng)頁抓取等技術(shù)。搜索引擎技術(shù)在市場(chǎng)的推動(dòng)下取得了較快的發(fā)展,對(duì)其進(jìn)行借鑒,無疑有助于抄襲檢測(cè)技術(shù)的進(jìn)步。