一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁論文查重動(dòng)態(tài)學(xué)術(shù)論文抄襲檢測方法研究綜述

學(xué)術(shù)論文抄襲檢測方法研究綜述

時(shí)間:2014-03-19 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)

從學(xué)術(shù)論文抄襲的現(xiàn)象和危害出發(fā),分析歸納了學(xué)術(shù)論文抄襲的主要類型及形式。接著從論點(diǎn)抄襲、文本抄襲、算法與程序代碼抄襲和圖片與公式抄襲等幾個(gè)方面,綜述了近階段所采用的主要抄襲檢測方法。最后概述了解決論文抄襲檢測問題的重要意義,并對(duì)如何防止學(xué)術(shù)論文抄襲提出建議。

20世紀(jì)90年代學(xué)術(shù)界提出反對(duì)學(xué)術(shù)腐敗以來,被揭露出來的學(xué)術(shù)腐敗事件最多的是學(xué)術(shù)造假,其中又以學(xué)術(shù)著作和論文的抄襲為最。抄襲行為不僅侵害了作者的權(quán)益,而且嚴(yán)重破壞了學(xué)術(shù)發(fā)展的生態(tài)環(huán)境,損害了學(xué)術(shù)共同體的尊嚴(yán),還影響到我國科研水平和科技競爭力的提高,損害了國家和公眾的利益。論文抄襲的類型主要分為兩種情況:一是論點(diǎn)抄襲,這種情況是從質(zhì)的角度來考慮,主要是看是否引用他人作品作為自己作品的主要部分或?qū)嵸|(zhì)部分。例如抄襲他人的創(chuàng)意、主要的觀點(diǎn)以及核心思想、分析論證方法等;二是內(nèi)容抄襲,主要是從量,有時(shí)也結(jié)合質(zhì)的角度來考慮,例如抄襲論文的文字、圖片、表格、數(shù)據(jù)、模型與公式等具體內(nèi)容。對(duì)于不同的學(xué)術(shù)論文抄襲形式其檢測方法也必然不同,下面根據(jù)不同的論文抄襲形式介紹其常用的判定方法。

一、論點(diǎn)抄襲的判定方法

抄襲他人論文的核心思想、觀點(diǎn)或創(chuàng)意及分析與論證方法,有可能不是整篇整段地抄襲,抄襲的數(shù)量也可能不超過1/10,因此不能簡單以抄襲的量加以衡量。這種抄襲一般難以直接判定,論點(diǎn)抄襲一般比較隱蔽,難以直接檢測出來,可行的方法是先借助某種模式識(shí)別方法,在懷疑抄襲論文與相似論文之間進(jìn)行比較,如果相似度超過一定的域值,則給出可能抄襲的初步判定。由于可能會(huì)出現(xiàn)誤判,所以還需要進(jìn)一步進(jìn)行人工判定。

晉耀紅等人提出了基于語境框架的文本相似度計(jì)算。[1]語境框架是一個(gè)三維的語義描述,它把文本內(nèi)容抽象成領(lǐng)域(靜態(tài)范疇)、情景(動(dòng)態(tài)描述)、背景(褒貶、參照等)三個(gè)側(cè)面。在語境框架的基礎(chǔ)上,計(jì)算文本的相似度。算法從概念層面入手,充分考慮了文本的領(lǐng)域和對(duì)象的語義角色對(duì)相似度的影響,重點(diǎn)針對(duì)文本中的歧義、多義、概念組合現(xiàn)象,以及語言中的褒貶傾向,實(shí)現(xiàn)文本間語義相似程度的量化。算法應(yīng)用到文本過濾系統(tǒng)中,用以比較用戶過濾要求和待過濾文本之間的相似度。

另外,還可以從論文的篇章結(jié)構(gòu)相似度出發(fā)進(jìn)行檢測。例如金博等人提出了基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法。[2]此算法是在學(xué)術(shù)論文理解的基礎(chǔ)上,針對(duì)學(xué)術(shù)論文的特有結(jié)構(gòu),對(duì)學(xué)術(shù)論文進(jìn)行篇章結(jié)構(gòu)分析。文章的篇章結(jié)構(gòu)用數(shù)據(jù)庫表可以表示為編號(hào)、全文特征值、發(fā)表時(shí)間、標(biāo)題、作者、單位、摘要、關(guān)鍵詞集合、中圖分類號(hào)、段落集合、參考文獻(xiàn)集合等。其中全文特征值是對(duì)某篇論文的全文進(jìn)行Hash處理得到的整數(shù)值。接著再通過數(shù)字指紋和詞頻統(tǒng)計(jì)等方法計(jì)算出學(xué)術(shù)論文之間的相似度,從而找出抄襲的現(xiàn)象。不過此算法只針對(duì)書寫格式規(guī)范的學(xué)術(shù)論文的抄襲現(xiàn)象。

二、內(nèi)容抄襲檢測方法

()文本抄襲的檢測方法

文本抄襲包括中文、英文和數(shù)據(jù)的抄襲,現(xiàn)在所采用的檢測方法主要有兩種:數(shù)字指紋法和詞頻統(tǒng)計(jì)法。數(shù)字指紋是通過某種選取策略對(duì)論文中的有些特征進(jìn)行HASH計(jì)算而生成的,這些HASH函數(shù)可以為論文的每一特征語句或段落產(chǎn)生惟一整數(shù)值,通過比較指紋來計(jì)算論文間的相似程度。詞頻統(tǒng)計(jì)是采用空間模型(VSM)來表示,在模型中,論文空間被看做由一組獨(dú)立詞條所組成的向量空間,每個(gè)論文表示為一個(gè)特征向量進(jìn)行相似度計(jì)算,常采用的計(jì)算公式包括點(diǎn)積法和余弦法等。

在國外,自從1991年用于查詢重復(fù)基金申請書的WordCheck軟件應(yīng)用以后,自然語言文本的抄襲檢測技術(shù)有了較大的發(fā)展,出現(xiàn)了多個(gè)抄襲檢測系統(tǒng),siff工具、復(fù)制檢測系統(tǒng)SCAMSE方法和Winnowing算法等。但由于英文論文和中文論文的語法和格式等有很大差別,所以檢測方法也有很大區(qū)別,一般不能直接套用。

在國內(nèi),2001年西安交通大學(xué)宋擒豹等人提出了CDSDG系統(tǒng),[4]這是為了解決數(shù)字商品非法復(fù)制和擴(kuò)散問題而開發(fā)的一個(gè)基于注冊的復(fù)制監(jiān)測原型系統(tǒng)。此系統(tǒng)通過對(duì)數(shù)字正文的多層次、多粒度表示來構(gòu)建基于統(tǒng)計(jì)的重疊度度量算法,取得了較好的效果。

金博、史彥軍等提出的利用知網(wǎng)的知識(shí)結(jié)構(gòu)及其知識(shí)描述語言的語法進(jìn)行相似度計(jì)算的方法。[5]在詞語的相似度計(jì)算中,利用知網(wǎng)義原樹狀結(jié)構(gòu)及知網(wǎng)知識(shí)的網(wǎng)狀知識(shí)特點(diǎn),計(jì)算全面可靠;通過對(duì)實(shí)詞集合的相似度計(jì)算來更有效地計(jì)算句子相似度;再將基于知網(wǎng)的語義理解相似度計(jì)算推廣到段落及文本范圍,使相似度計(jì)算更具實(shí)用價(jià)值。

霍華、馮博琴提出的基于壓縮稀疏矩陣矢量相乘的文本相似度計(jì)算方法,[6]能夠減少計(jì)算和存儲(chǔ)空間的開銷。該方法僅對(duì)非零元素存儲(chǔ)和表示,然后用壓縮稀疏矩陣矢量相乘的方法計(jì)算文本和查詢的相似度,可通過給定相似度闡值來判定一個(gè)文本是否和查詢相似。

余剛、裴仰軍等提出的基于詞匯語義計(jì)算的文本相似度研究。[7]采用了基于知網(wǎng)的詞匯語義計(jì)算方法來計(jì)算兩篇文章向量的相關(guān)性,并用最大匹配算法來獲得這兩篇文章的相似度,通過該計(jì)算過程達(dá)到揭示文本所涉及概念的目的。

化柏林開發(fā)了一個(gè)基于句子匹配的文章自寫度測試系統(tǒng)。[8]句子是組成文章的重要單位,也是表明作者行文觀點(diǎn)的最小單位,所以對(duì)于任意一篇稿子,利用句子匹配分析可以得到文章的自寫度(自寫不一定為創(chuàng)新,但相同可能為抄襲或引用)。對(duì)每一個(gè)句子都有匹配度,審核人員可以一目了然地看清有哪些句子是抄的,哪些句子是參考別人的,哪些句子是自己寫的。

此外還有麻會(huì)東、劉國華等人提出了基于提取關(guān)鍵詞的中文文檔復(fù)制檢測方法,[9]王濤,樊孝忠等人提出了基于復(fù)雜特征集的剽竊檢測算法等,[10]都有一定的特色和檢測效果。

筆者也提出了一種基于基于分類思想的論文抄襲判定系統(tǒng)(CBTPJS),[11]可以在分類結(jié)果的基礎(chǔ)上進(jìn)行比較精確的抄襲判定并輸出抄襲段落中的具體抄襲內(nèi)容。其主要思路是從分類出發(fā),先進(jìn)行全篇相似度計(jì)算,經(jīng)過初步篩選,然后對(duì)篩選結(jié)果再進(jìn)行精確比較,即進(jìn)行段落相似度計(jì)算,最后如果判定是抄襲則輸出具體抄襲的內(nèi)容。

另外,中國知網(wǎng)推出的科技期刊學(xué)術(shù)不端文獻(xiàn)監(jiān)測系統(tǒng)、社科期刊學(xué)術(shù)不端文獻(xiàn)監(jiān)測系統(tǒng)和學(xué)位論文學(xué)術(shù)不端文獻(xiàn)監(jiān)測系統(tǒng),2009年也開始投入使用,其主要采用的是數(shù)字指紋技術(shù)。

()算法與程序代碼的抄襲判定方法

對(duì)于程序代碼的抄襲,有的是直接復(fù)制或稍加改動(dòng),例如修改變量的名稱,修改輸入、輸出語句的格式等。有的改動(dòng)較大,例如抄襲者采用另一種程序設(shè)計(jì)語言進(jìn)行實(shí)現(xiàn)而不做說明,其實(shí)算法是相同的,這屬于算法的抄襲。算法的表示形式有很多種,包括程序流程圖、N-S圖、過程設(shè)計(jì)語言等,對(duì)于某種算法用另一種形式進(jìn)行描述,或者用另一種語言進(jìn)行實(shí)現(xiàn),這實(shí)際是抄襲了他人的核心思想。

程序代碼相似度自動(dòng)度量技術(shù)的研究始于20世紀(jì)70年代,至今已比較成熟。目前的抄襲檢測系統(tǒng)大部分使用了結(jié)構(gòu)度量技術(shù),即通過系統(tǒng)比較表示程序結(jié)構(gòu)的字符串來檢測抄襲,但表示程序結(jié)構(gòu)的字符串不需要精確匹配。有的系統(tǒng)混合使用了結(jié)構(gòu)度量技術(shù)和屬性計(jì)數(shù)技術(shù)。比較有代表性的有AlexAiken1994年開發(fā)的MOSS系統(tǒng),主要用于檢測用C、C++、JAVA、PASCALAda、ML、LispScheme等編寫的源程序的相似性;MichaelWise1996年開發(fā)的YAP3,不但可以檢測源程序代碼的抄襲,還可以檢測自然語言文本間的相似性。

由于算法可能以不同形式表示,直接檢測不易,因此可以考慮把算法通過某種工具,ROSECASE工具,轉(zhuǎn)換成統(tǒng)一的形式,例如偽碼或PAD圖等,然后再進(jìn)一步比較偽碼或圖形。

()圖片與公式抄襲的檢測方法

圖片抄襲是指對(duì)他人論文中的圖形或圖像直接插入到自己的論文中作為自己成果的一部分。圖片不做處理,也可能稍加處理。抄襲的圖片大多是重要的論據(jù),或者是實(shí)驗(yàn)的結(jié)果等,這種抄襲從量上也可能不足1/10,但實(shí)際上也構(gòu)成了抄襲。對(duì)于論文中的圖片抄襲問題,一般借助圖像匹配方法進(jìn)行檢測。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識(shí)別同名點(diǎn)。圖像匹配主要包括以灰度為基礎(chǔ)的匹配和以特征為基礎(chǔ)的匹配。即使抄襲者對(duì)圖片進(jìn)行了少量修改,通過此方法也能檢測出來。

論文中涉及到的模型、公式和定義等也可能被別人抄襲,這部分內(nèi)容可能只占很少的篇幅,但這可能是論文的精華部分和亮點(diǎn),整篇文章都是基于此模型的實(shí)驗(yàn)結(jié)果或者公式的演算結(jié)果進(jìn)行分析和論證的,因此這也屬于抄襲的一種形式。由于公式不同于普通文本,如果采用一般的文本抄襲檢測方法可能判斷不出公式是否被抄襲。因?yàn)槌u者可能會(huì)更改變量名、調(diào)整表達(dá)式中常量、變量或函數(shù)等成份位置等,而且公式中還使用了很多專用數(shù)學(xué)符號(hào)。因此,對(duì)于公式的抄襲檢測要采用特殊的方法。一種方法是把公式當(dāng)作圖片,采用前面提到的圖像匹配技術(shù),即使有所改動(dòng)也能大致判斷出來是否涉嫌抄襲;另一種方法是采用特定技術(shù)把兩個(gè)公式中的數(shù)學(xué)符號(hào)、常量、變量、函數(shù)等分別抽取出來,然后對(duì)比,從使用的個(gè)數(shù)及順序的相似程度上進(jìn)行檢測是否涉嫌抄襲。當(dāng)然這兩種方法都存在一定的缺陷,可能會(huì)誤判,進(jìn)一步人工判定還是必要的。

學(xué)術(shù)論文抄襲問題已經(jīng)越來越被大家所關(guān)注,解決論文抄襲的檢測問題不但對(duì)于保護(hù)知識(shí)產(chǎn)權(quán)、提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義,而且可以有效地防止一稿多投和減輕審稿人員的工作負(fù)擔(dān)。抄襲者之所以去抄襲,一是利益驅(qū)動(dòng);二是抱有不會(huì)被發(fā)現(xiàn)的僥幸心理。因此,除了設(shè)法進(jìn)一步提高論文抄襲檢測系統(tǒng)的效果和效率外,還要加強(qiáng)科學(xué)道德教育和完善相關(guān)法律條款,從多方面入手,使得論文抄襲者無機(jī)可乘。


                                                                                                                                


在線咨詢
在線留言
系統(tǒng)列表
返回頂部