時間:2014-08-16 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)
自20世紀90年代學(xué)術(shù)界提出反對學(xué)術(shù)腐敗以來, 被揭露出來的學(xué)術(shù)腐敗事件最多的是學(xué)術(shù)造假,其中又以學(xué)術(shù)著作和論文的抄襲為最。抄襲行為不僅侵害了作者的權(quán)益, 而且嚴重破壞了學(xué)術(shù)發(fā)展的生態(tài)環(huán)境, 損害了學(xué)術(shù)共同體的尊嚴, 還影響到我國科研水平和科技競爭力的提高, 損害了國家和公眾的利益。論文抄襲的類型主要分為兩種情況: 一是論點抄襲, 這種情況是從質(zhì)的角度來考慮, 主要是看是否引用他人作品作為自己作品的主要部分或?qū)嵸|(zhì)部分。例如抄襲他人的創(chuàng)意、主要的觀點以及核心思想、分析論證方法等; 二是內(nèi)容抄襲, 主要是從量,有時也結(jié)合質(zhì)的角度來考慮, 例如抄襲論文的文字、圖片、表格、數(shù)據(jù)、模型與公式等具體內(nèi)容。對于不同的學(xué)術(shù)論文抄襲形式其檢測方法也必然不同, 下面根據(jù)不同的論文抄襲形式介紹其常用的判定方法。
抄襲他人論文的核心思想、觀點或創(chuàng)意及分析與論證方法, 有可能不是整篇整段地抄襲, 抄襲的數(shù)量也可能不超過1 /10, 因此不能簡單以抄襲的量加以衡量。這種抄襲一般難以直接判定, 論點抄襲一般比較隱蔽, 難以直接檢測出來, 可行的方法是先借助某種模式識別方法, 在懷疑抄襲論文與相似論文之間進行比較, 如果相似度超過一定的域值, 則給出可能抄襲的初步判定。由于可能會出現(xiàn)誤判, 所以需要進一步進行人工判定。
晉耀紅等人提出了基于語境框架的文本相似度計算。語境框架是一個三維的語義描述, 它把文本內(nèi)容抽象成領(lǐng)域(靜態(tài)范疇)、情景(動態(tài)描述)、背景(褒貶、參照等)三個側(cè)面。在語境框架的基礎(chǔ)上, 計算文本的相似度。算法從概念層面入手, 充分考慮了文本的領(lǐng)域和對象的語義角色對相似度的影響, 重點針對文本中的歧義、多義、概念組合現(xiàn)象, 以及語言中的褒貶傾向, 實現(xiàn)文本間語義相似程度的量化。算法應(yīng)用到文本過濾系統(tǒng)中, 用以比較用戶過濾要求和待過濾文本之間的相似度。
另外, 還可以從論文的篇章結(jié)構(gòu)相似度出發(fā)進行檢測。例如金博等人提出了基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法。此算法是在學(xué)術(shù)論文理解的基礎(chǔ)上, 針對學(xué)術(shù)論文的特有結(jié)構(gòu), 對學(xué)術(shù)論文進行篇章結(jié)構(gòu)分析。文章的篇章結(jié)構(gòu)用數(shù)據(jù)庫表可以表示為編號、全文特征值、發(fā)表時間、標題、作者、單位、摘要、關(guān)鍵詞集合、中圖分類號、段落集合、參考文獻集合等。其中全文特征值是對某篇論文的全文進行Hash處理得到的整數(shù)值。接著再通過數(shù)字指紋和詞頻統(tǒng)計等方法計算出學(xué)術(shù)論文之間的相似度, 從而找出抄襲的現(xiàn)象。不過此算法只針對書寫格式規(guī)范的學(xué)術(shù)論文的抄襲現(xiàn)象。
文本抄襲包括中文、英文和數(shù)據(jù)的抄襲, 現(xiàn)在所采用的檢測方法主要有兩種: 數(shù)字指紋法和詞頻統(tǒng)計法。數(shù)字指紋是通過某種選取策略對論文中的有些特征進行HASH 計算而生成的, 這些HASH 函數(shù)可以為論文的每一特征語句或段落產(chǎn)生惟一整數(shù)值, 通過比較指紋來計算論文間的相似程度。詞頻統(tǒng)計是采用空間模型( VSM ) 來表示, 在模型中, 論文空間被看做由一組獨立詞條所組成的向量空間,每個論文表示為一個特征向量進行相似度計算, 常采用的計算公式包括點積法和余弦法等。
在國外, 自從1991年用于查詢重復(fù)基金申請書的WordCheck軟件應(yīng)用以后, 自然語言文本的抄襲檢測技術(shù)有了較大的發(fā)展, 出現(xiàn)了多個抄襲檢測系統(tǒng), 如siff工具、復(fù)制檢測系統(tǒng)SCAM、SE 方法和Winnowing算法等。但由于英文論文和中文論文的語法和格式等有很大差別, 所以檢測方法也有很大區(qū)別, 一般不能直接套用。
在國內(nèi), 2001年西安交通大學(xué)宋擒豹等人提出了CDSDG系統(tǒng), 這是為了解決數(shù)字商品非法復(fù)制和擴散問題而開發(fā)的一個基于注冊的復(fù)制監(jiān)測原型系統(tǒng)。此系統(tǒng)通過對數(shù)字正文的多層次、多粒度表示來構(gòu)建基于統(tǒng)計的重疊度度量算法, 取得了較好的效果。
金博、史彥軍等提出的利用知網(wǎng)的知識結(jié)構(gòu)及其知識描述語言的語法進行相似度計算的方法。在詞語的相似度計算中, 利用知網(wǎng)義原樹狀結(jié)構(gòu)及知網(wǎng)知識的網(wǎng)狀知識特點, 計算全面可靠; 通過對實詞集合的相似度計算來更有效地計算句子相似度;再將基于知網(wǎng)的語義理解相似度計算推廣到段落及文本范圍, 使相似度計算更具實用價值。霍華、馮博琴提出的基于壓縮稀疏矩陣矢量相乘的文本相似度計算方法, 能夠減少計算和存儲間的開銷。該方法僅對非零元素存儲和表示, 然后用壓縮稀疏矩陣矢量相乘的方法計算文本和查詢的相似度, 可通過給定相似度闡值來判定一個文本是否和查詢相似。
余剛、裴仰軍等提出的基于詞匯語義計算的文本相似度研究。采用了基于知網(wǎng)的詞匯語義計算方法來計算兩篇文章向量的相關(guān)性, 并用最大匹配算法來獲得這兩篇文章的相似度, 通過該計算過程達到揭示文本所涉及概念的目的?;亓珠_發(fā)了一個基于句子匹配的文章自寫度測試系統(tǒng)。句子是組成文章的重要單位, 也是表明作者行文觀點的最小單位, 所以對于任意一篇稿子, 利用句子匹配分析可以得到文章的自寫度(自寫不一定為創(chuàng)新, 但相同可能為抄襲或引用)。對每一個句子都有匹配度, 審核人員可以一目了然地看清有哪些句子是抄的, 哪些句子是參考別人的, 哪些句子是自己寫的。此外還有麻會東、劉國華等人提出了基于提取關(guān)鍵詞的中文文檔復(fù)制檢測方法, 王濤, 樊孝忠等人提出了基于復(fù)雜特征集的剽竊檢測算法等, 都有一定的特色和檢測效果。
筆者也提出了一種基于基于分類思想的論文抄襲判定系統(tǒng)( CBTPJS ), 可以在分類結(jié)果的基礎(chǔ)上進行比較精確的抄襲判定并輸出抄襲段落中的具體抄襲內(nèi)容。其主要思路是從分類出發(fā), 先進行全篇相似度計算, 經(jīng)過初步篩選, 然后對篩選結(jié)果再進行精確比較, 即進行段落相似度計算, 最后如果判定是抄襲則輸出具體抄襲的內(nèi)容。另外, 中國知網(wǎng)推出的科技期刊學(xué)術(shù)不端文獻監(jiān)測系統(tǒng)、社科期刊學(xué)術(shù)不端文獻監(jiān)測系統(tǒng)和學(xué)位論文學(xué)術(shù)不端文獻監(jiān)測系統(tǒng), 從2009年也開始投入使用, 其主要采用的是數(shù)字指紋技術(shù)。
對于程序代碼的抄襲, 有的是直接復(fù)制或稍加改動, 例如修改變量的名稱, 修改輸入、輸出語句的格式等。有的改動較大, 例如抄襲者采用另一種程序設(shè)計語言進行實現(xiàn)而不做說明, 其實算法是相同的, 這屬于算法的抄襲。算法的表示形式有很多種,包括程序流程圖、N - S圖、過程設(shè)計語言等, 對于某種算法用另一種形式進行描述, 或者用另一種語言進行實現(xiàn), 這實際是抄襲了他人的核心思想。程序代碼相似度自動度量技術(shù)的研究始于20世紀70年代, 至今已比較成熟。目前的抄襲檢測系統(tǒng)大部分使用了結(jié)構(gòu)度量技術(shù), 即通過系統(tǒng)比較表示程序結(jié)構(gòu)的字符串來檢測抄襲, 但表示程序結(jié)構(gòu)的字符串不需要精確匹配。有的系統(tǒng)混合使用了結(jié)構(gòu)度量技術(shù)和屬性計數(shù)技術(shù)。比較有代表性的有Alex Aiken于1994年開發(fā)的MOSS 系統(tǒng), 主要用于檢測用C、C + + 、JAVA、PASCAL、A da、ML、Lisp、Scheme等編寫的源程序的相似性; M ichae lW ise于1996年開發(fā)的YAP3, 不但可以檢測源程序代碼的抄襲, 還可以檢測自然語言文本間的相似性。
由于算法可能以不同形式表示, 直接檢測不易,因此可以考慮把算法通過某種工具, 如ROSE 等CASE 工具, 轉(zhuǎn)換成統(tǒng)一的形式, 例如偽碼或PAD圖等, 然后再進一步比較偽碼或圖形。
圖片抄襲是指對他人論文中的圖形或圖像直接插入到自己的論文中作為自己成果的一部分。圖片不做處理, 也可能稍加處理。抄襲的圖片大多是重要的論據(jù), 或者是實驗的結(jié)果等, 這種抄襲從量上也可能不足1 /10, 但實際上也構(gòu)成了抄襲。對于論文中的圖片抄襲問題, 一般借助圖像匹配方法進行檢測。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點。圖像匹配主要包括以灰度為基礎(chǔ)的匹配和以特征為基礎(chǔ)的匹配。即使抄襲者對圖片進行了少量修改, 通過此方法也能檢測出來。論文中涉及到的模型、公式和定義等也可能被別人抄襲, 這部分內(nèi)容可能只占很少的篇幅, 但這可能是論文的精華部分和亮點, 整篇文章都是基于此模型的實驗結(jié)果或者公式的演算結(jié)果進行分析和論證的, 因此這也屬于抄襲的一種形式。由于公式不同于普通文本, 如果采用一般的文本抄襲檢測方法可能判斷不出公式是否被抄襲。因為抄襲者可能會變量名、調(diào)整表達式中常量、變量或函數(shù)等成份位置等, 而且公式中還使用了很多專用數(shù)學(xué)符號。因此, 對于公式的抄襲檢測要采用特殊的方法。一種方法是把公式當(dāng)作圖片, 采用前面提到的圖像匹配技術(shù), 即使有所改動也能大致判斷出來是否涉嫌抄襲; 另一種方法是采用特定技術(shù)把兩個公式中的數(shù)學(xué)符號、常量、變量、函數(shù)等分別抽取出來, 然后對比, 從使用的個數(shù)及順序的相似程度上進行檢測是否涉嫌抄襲。當(dāng)然這兩種方法都存在一定的缺陷,可能會誤判, 進一步人工判定還是必要的。
學(xué)術(shù)論文抄襲問題已經(jīng)越來越被大家所關(guān)注,解決論文抄襲的檢測問題不但對于保護知識產(chǎn)權(quán)、提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義, 而且可以有效地防止一稿多投和減輕審稿人員的工作負擔(dān)。抄襲者之所以去抄襲,一是利益驅(qū)動; 二是抱有不會被發(fā)現(xiàn)的僥幸心理。因此, 除了設(shè)法進一步提高論文抄襲檢測系統(tǒng)的效果和效率外, 還要加強科學(xué)道德教育和完善相關(guān)法律條款, 從多方面入手, 使得論文抄襲者無機可乘。