一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁論文查重動態(tài)論文檢測論文檢測系統(tǒng)一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法

論文檢測系統(tǒng)一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法

時(shí)間:2014-04-07 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)

解決論文抄襲的判定問題不但可以減輕審稿人員的工作負(fù)擔(dān), 而且對于提高學(xué)術(shù)論文質(zhì)量、凈化學(xué)術(shù)領(lǐng)域、防止學(xué)術(shù)腐敗都有很重要的意義。從抄襲的定義和法律規(guī)定出發(fā), 在分析比較國內(nèi)外主要的論文抄襲判定方法基礎(chǔ)上, 提出存在的問題和改進(jìn)策略, 然后給出一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法。此算法不但可以檢測出抄襲者成段抄襲的情況, 而且可以檢測出段落中語句順序改變、段落內(nèi)容壓縮和擴(kuò)充的情況, 若疑似抄襲還可以將抄襲論文和被抄襲論文的相似內(nèi)容輸出, 方便用戶進(jìn)一步審查。

引 言

近些年來論文抄襲成為困擾學(xué)術(shù)界的嚴(yán)重問題之一, 抄襲剽竊之風(fēng)在今天的學(xué)術(shù)界愈演愈烈?guī)缀跏遣粻幍氖聦?shí)。抄襲是指將他人作品或者作品的片段竊為己有。更準(zhǔn)確地說, 抄襲是指將他人作品或者作品的片段竊為己有并公開發(fā)表。論文中可以適當(dāng)?shù)匾盟俗髌返牟糠謨?nèi)容, 當(dāng)然要指明出處。但如果引用不合理, 就涉嫌抄襲。著作權(quán)法實(shí)施條例6第二十七條第二款規(guī)定所引用部分不能構(gòu)成引用人作品的主要部分, 我國文化部1985年曾對合理引用量作了規(guī)定。該規(guī)定指出, 引用非詩詞類作品不得超過2500 字或被引用作品的十分之一;多次引用同一部長篇非詩詞類作品, 總字?jǐn)?shù)不得超過1 萬字; 引用詩詞類作品不得超過40 行或全詩的四分之一, 但古體詩詞例外; 凡引用一人或多人的作品, 所引用的總量不得超過本人創(chuàng)作作品總量的十分之一。但專題評論和古體詩詞除外。

目前, 對于英文論文抄襲的判定比較成熟, 主要采用數(shù)字指紋和字符串匹配等技術(shù), 而對于中文論文抄襲的判定還不太成熟, 大多數(shù)算法存在識別率低、效率不高等問題。針對這種情況, 提出一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法, 提高了識別率, 并對抄襲內(nèi)容進(jìn)行定位輸出, 方便用戶查看。

1 相關(guān)工作

1. 1 國內(nèi)外研究現(xiàn)狀

學(xué)術(shù)論文抄襲的形式和手段多種多樣, 包括直接將他人論文全盤復(fù)制, 只改動題目和署名; 東拼西湊,抄襲多篇論文的部分段落和語句; 抄襲論文的圖、表與公式等。這里只討論文字部分的抄襲判定。

在國外, 自從1991 年用于查詢重復(fù)基金申請書的WordCheck 軟件應(yīng)用以后, 自然語言文本的抄襲識別技術(shù)有了較大的發(fā)展, 出現(xiàn)了多個(gè)抄襲識別系統(tǒng)。1994 年, Mander 開發(fā)了用于大規(guī)模文件系統(tǒng)中相似文件查詢的siff 工具[ 2] 。sif f 能夠查詢二進(jìn)制和文本文件, 率先使用數(shù)字指紋技術(shù)來計(jì)算文件相似度, 為抄襲論文識別技術(shù)提供了新思路。1995 年, Shivakumar 等采用相關(guān)頻率模型開發(fā)了復(fù)制檢測系統(tǒng)SCAM[ 3] ,SCAM 借鑒了信息檢索技術(shù)中的向量空間模型, 采用了改進(jìn)的余弦法來計(jì)算文檔相似度。同期, 香港理工大學(xué)的Si 和L eong 等人建立的CHECK 原型采用統(tǒng)計(jì)關(guān)鍵詞的方法來度量文本相似性。CHECK 系統(tǒng)首次把文檔結(jié)構(gòu)信息引入到文本相似性度量中。2002 年,Hoad 和Zobel 綜合采用了詞頻統(tǒng)計(jì)和數(shù)字指紋方法來解決衍生文檔的識別問題, 通過對大量XML 數(shù)據(jù)和Linux 文件的測試以尋找較好的抄襲識別算法。另外, 悉尼大學(xué)Wise 開發(fā)了YAP( yet another plague) 1,YAP2, YAP3 系列工具[ 4] 。YAP1 和YAP2 是用于程序復(fù)制檢測的工具, YAP3 利用程序復(fù)制檢測的方法,既檢測程序復(fù)制也檢測文本復(fù)制。在國內(nèi), 2001 年, 西安交通大學(xué)宋擒豹等人提出了CDSDG( copying detect ion system of digital goods) 系統(tǒng)[ 5] , 這是為了解決數(shù)字商品非法復(fù)制和擴(kuò)散問題而開發(fā)的一個(gè)基于注冊的復(fù)制監(jiān)測原型系統(tǒng)。此系統(tǒng)通過對數(shù)字正文的多層次、多粒度表示來構(gòu)建基于統(tǒng)計(jì)的重疊度度量算法, 取得了較好的效果。2007 年, 金博等人還從論文的篇章結(jié)構(gòu)相似度出發(fā)提出了基于篇章結(jié)構(gòu)相似度的復(fù)制檢測算法[ 6]。它是在學(xué)術(shù)論文理解的基礎(chǔ)上, 針對學(xué)術(shù)論文的特有結(jié)構(gòu), 對學(xué)術(shù)論文進(jìn)行篇章結(jié)構(gòu)分析, 再通過數(shù)字指紋和詞頻統(tǒng)計(jì)等方法計(jì)算出學(xué)術(shù)論文之間的相似度, 從而找出抄襲的現(xiàn)象。但此算法只是針對書寫格式規(guī)范的學(xué)術(shù)論文抄襲情況的判定。

1. 2 中文分詞

英文書寫時(shí), 單詞之間用空格隔開, 詞間界限涇渭分明; 而中文是字的序列, 詞與詞之間沒有間隔標(biāo)記,而詞又是中文中最小的能夠獨(dú)立運(yùn)行的語法單位, 所以必須經(jīng)過分詞處理后, 計(jì)算機(jī)才能進(jìn)行下一步的分析, 因此對中文的自動分詞, 是中文信息處理的基礎(chǔ)和前提?,F(xiàn)有的分詞方法主要有以下三類[ 7]。

1. 2. 1 基于字符串匹配的分詞方法

這種方法又稱為機(jī)械分詞方法, 它是按照一定的策略將待分析的漢字串與一個(gè)/ 充分大的0機(jī)器詞典中的詞條進(jìn)行匹配, 若在詞典中找到某個(gè)字符串, 則匹配成功( 識別出一個(gè)詞) 。按照掃描方向的不同, 串匹配分詞方向的不同, 串匹配方式又包括正向匹配、逆向匹配和雙向匹配等。

1. 2. 2 基于理解的分詞方法

這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解, 達(dá)到識別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析, 利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分: 分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。

1. 2. 3 基于統(tǒng)計(jì)的分詞方法

在上下文中, 相鄰的字同時(shí)出現(xiàn)的次數(shù)越多, 就越有可能構(gòu)成一個(gè)詞。可以對語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì), 計(jì)算它們的互現(xiàn)信息。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí), 便可認(rèn)為次字組可能構(gòu)成一個(gè)次。這種方法時(shí)空開銷較大, 識別精度不高。所以實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都是將串匹配和串統(tǒng)計(jì)結(jié)合起來使用?,F(xiàn)在常用的分詞軟件有中科院的ICTCLAS 和天津海量科技公司的分詞系統(tǒng)。其中中科院的漢語詞法分析系統(tǒng)ICTCLAS 包括中文分詞、詞性表注、命名實(shí)體識別、新詞識別、同時(shí)支持用戶詞典等動能。文中所涉及到的算法就是采用中科院的ICTCLAS 進(jìn)行分詞預(yù)處理的。

2 基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法

2. 1 基本思想

前面提到的復(fù)制檢測或者抄襲判定系統(tǒng)大多只能處理全文抄襲或大部分抄襲等情況, 而對于個(gè)別段落的抄襲, 尤其是從多篇文章進(jìn)行段落摘抄的情況, 容易疏漏。另外, 在基于段落相似度比較判定時(shí), 由于很多情況下抄襲者也不是整段一字不動的抄襲, 有的是調(diào)整語序, 有的摘抄段落的一部分, 還有的是對某些段落進(jìn)行合并、擴(kuò)充或者壓縮等, 所以判定時(shí)很容易漏查或誤查。針對上述問題, 提出的算法就是基于段落的詞頻統(tǒng)計(jì)和比較來判定是否存在抄襲。其中涉及到一些細(xì)節(jié)問題包括:在統(tǒng)計(jì)詞頻時(shí)考慮到效率問題, 去除了停用詞等,而且使用散列表提高檢索速度。另外, 由于有的段落很短, 且對于判定抄襲結(jié)果影響不大, 所以在比較時(shí)可以忽略。

由于論文判定抄襲的標(biāo)準(zhǔn)一般是非法引用他人文章的十分之一或者引用部分占到自己文章的十分之一都算為抄襲, 所以在判定時(shí)必須把這兩種情況都考慮在內(nèi)。當(dāng)然在具體實(shí)現(xiàn)時(shí), 考慮到偶然情況, 全文相似度也可以設(shè)定稍大一些, 例如15%; 且對于每一段比較時(shí)還要另外設(shè)定一個(gè)閾值, 這個(gè)值要比全文相似度再稍大一些, 例如20%。

2. 2 基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法

基于段落詞頻統(tǒng)計(jì)的論文抄襲判定具體算法:步驟1: 對查詢論文進(jìn)行分詞, 然后將各詞分別放入以段落為單位建立的

若干數(shù)組和Hashtable 中( 使用Hashtable 主要是提高檢索速度, 其中鍵代表詞, 值代表詞頻) , 在放入過程中去除無關(guān)緊要的詞,如嘆詞、虛詞、停用詞等。

步驟2: . 設(shè)定一個(gè)閾值( 0. 2) , 將待查論文的每個(gè)數(shù)組與查詢論文的每個(gè)數(shù)組進(jìn)行比較, 若有重復(fù)則登記匹配的個(gè)數(shù)。每輪循環(huán)比較結(jié)束, 若匹配詞頻總數(shù)超過閾值則疑似段落抄襲, 記錄相似度最大的那個(gè), 否則認(rèn)為有抄襲。直至所有段落比較完畢。步驟3: 統(tǒng)計(jì)所有疑似抄襲段落匹配的詞頻數(shù)總和占抄襲論文與待查論文總詞頻數(shù)的比例, 若任何一個(gè)超過指定的閾值(0. 15) 則認(rèn)為論文存在抄襲。步驟4: 若存在抄襲則對可能抄襲的段落進(jìn)行逐句比較, 輸出相似的語句( 包括原文章和抄襲的文章) ,目的是方便用戶查詢對比; 若無抄襲則輸出: 無抄襲現(xiàn)象的結(jié)論。

3 實(shí)驗(yàn)結(jié)果分析

筆者設(shè)計(jì)了一篇抄襲的文章, 其中包括整段抄襲(兩篇) 、調(diào)整某段落語句順序( 一篇) 、摘抄段落的一部分( 兩篇)和對某些段落進(jìn)行擴(kuò)充和壓縮( 兩篇) 等多種情況, 目的是檢驗(yàn)系統(tǒng)對各種抄襲情況判定的效果。另外通過關(guān)鍵字在論文庫中1000 多篇論文的摘要或全文中進(jìn)行檢索, 選取了132 篇同類文章。針對不同閾值進(jìn)行了三組實(shí)驗(yàn), 表1 是在不同閾值下其查準(zhǔn)率、查全率和F1 值的情況。

要提高查準(zhǔn)率和查全率, 對于段落相似度的域值設(shè)定很重要, 通過實(shí)驗(yàn)我們發(fā)現(xiàn)當(dāng)閾值過大時(shí), 容易漏查; 而當(dāng)域值過小時(shí), 容易誤查, 當(dāng)然這兩種情況下查準(zhǔn)率都不高。一般法律規(guī)定是引用超過10%則認(rèn)為是不合理引用或者抄襲, 由于按詞頻統(tǒng)計(jì)有一定誤差,所以可以放大到15%左右。另外, 筆者是以自然段為單位進(jìn)行比較的, 但有些段落內(nèi)容非常少, 如小標(biāo)題等。由于詞語太少, 矩陣太稀疏, 容易造成誤判, 所以在掃描論文時(shí), 詞語數(shù)太少

的段落是忽略不記的。由于這部分內(nèi)容所占比例很小, 所以最后統(tǒng)計(jì)時(shí)對判定結(jié)果影響不大。

4 結(jié)束語

基于段落詞頻統(tǒng)計(jì)的論文抄襲判定方法的特點(diǎn)是: 以段落為單位可以防止抄襲者將論文的段落順序打亂, 尤其是從多篇文章進(jìn)行段落摘抄的情況, 只要總量超過一定閾值, 也能夠檢測出; 同時(shí), 基于段落詞頻統(tǒng)計(jì)可以檢測到將段落語句次序打亂重新組合和對段落進(jìn)行擴(kuò)充或壓縮的情況。由于最后做出的結(jié)論有一定誤差, 還需要人工進(jìn)一步判定, 所以分別在兩個(gè)窗口輸出抄襲論文和待查論文疑似抄襲的段落, 使用戶不必再從整篇論文中查找、定位抄襲內(nèi)容, 從而方便用戶進(jìn)一步查看與判定。對于中文學(xué)術(shù)論文的抄襲識別問題, 相對于英文論文抄襲識別來說, 由于需要額外考慮漢語的詞切分、詞法及語法特點(diǎn), 因此, 難度較大。對于文中提出的算法和文中提到的其他算法都存在一定的誤判, 而且效率還需要進(jìn)一步提高。另外, 對于論點(diǎn)抄襲更是難以判定, 一般需要借助于人工智能進(jìn)行語意分析和判斷。因此, 對于論文抄襲問題還需要進(jìn)一步研究, 還不能完全替代人工判定。


作者:趙俊杰, 胡學(xué)鋼


在線咨詢
在線留言
系統(tǒng)列表
返回頂部