一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁論文檢測教程論文查重檢測系統(tǒng)的原理技術研究

論文查重檢測系統(tǒng)的原理技術研究

時間:2015-01-13 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)

論文查重檢測是知識產(chǎn)權保護中一項重要的內容,已有眾多的識別方法和系統(tǒng)。本文從抄襲檢測的技術概述定義、數(shù)字指紋和詞頻統(tǒng)計兩大類技術和方法和抄襲剽竊識別系統(tǒng)等方面為基本思路,對該領域中已提出的主要研究方案進行了分類闡述和比較分析,總結了其最新研究進展,為下一步的研究提出了新的課題和設想。

隨著數(shù)字圖書館和互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)字化文檔唾手可得。近年來學術剽竊現(xiàn)象屢見報端,①公眾人物學術造假事件的曝光使得民眾對學術不端行為的關注進一步提升,其行為的危害已經(jīng)引起社會各界的廣泛重視。如何有效的防范、遏制抄襲等學習不端行為成為人們研究的熱點,隨著各種抄襲檢測技術的研究不斷深入,各種學術不端檢測系統(tǒng)應運而生。本文要探討的是抄襲的識別技術和檢測工具。

1 論文查重研究背景

抄襲現(xiàn)象之所以存在有著多層面的原因,首先,各種利益的驅動或者自身能力的限制使得抄襲者產(chǎn)生了主觀的故意;毫無疑問,互聯(lián)網(wǎng)的廣泛普及,搜索引擎的強大功能都為抄襲等行為提供了便利;網(wǎng)絡及各種全文數(shù)據(jù)庫收藏的海量文獻為抄襲者提供了原材料;抄襲檢測工具應用不夠普及、功能有待提高使得抄襲者心存僥幸;對抄襲行為可能引起的法律問題嚴重的認知不足等等。

抄襲應用的領域可能是一篇學術論文、一篇博客、一段程序代碼等等,本文關注的是中文學術論文的抄襲。從技術層面上來說,杜絕抄襲可以從兩個方面入手:一是在寫作過程中阻止;二是在發(fā)表過程中檢測?!皺z測”方法的設計思路是這樣的:不關心文章以何種方式完成,只是在定稿的文檔中進行檢測,確定其中是否含有抄襲的內容即可。顯然使用檢測的方法來判別可操作性更強。

2 抄襲檢測技術概述

對于自然語言的抄襲檢測技術的核心就是文檔復制檢測技術。文檔復制檢測有兩類基本的檢測方法:一類是基于字符串比較的方法;另一類是基于詞頻統(tǒng)計的方法。基于字符串比較的方法也稱為數(shù)字指紋法,這類方法通過某種選取策略在文檔中取一些字符串作為“指紋”,把指紋映射到Hash 表中,最后統(tǒng)計Hash 表中相同的指紋數(shù)目或者比率,作為文本相似度依據(jù)?;谠~頻統(tǒng)計的方法也稱為基于語義的方法。詞頻統(tǒng)計法源于信息檢索技術中的向量空間模型,該類方法首先都要統(tǒng)計每篇文檔中各個單詞的出現(xiàn)次數(shù),然后根據(jù)單詞頻度構成文檔特征向量,最后采用點積、余弦或者類似方式度量兩篇文檔的特征向量,以此作為文檔相似度的依據(jù)。

3 抄襲檢測技術的發(fā)展

使用計算機開展抄襲識別的研究首先要對數(shù)字文檔進行分析處理,而數(shù)字文檔又可分為兩種類別,即:自然語言文本和形式語言文本。形式語言文本比較典型的是計算機程序源代碼,雖然抄襲的案例較多,但因其具有規(guī)范的語法和語句結構特點,相對比較容易分析處理,針對此類抄襲識別的研究也較早。而自然語言文本(如:論文等)復制檢測技術的出現(xiàn)比

程序復制檢測晚了20 年。②1993 年,美國亞利桑那大學的Manber提出了“近似指紋”概念,基于此提出了sif 工具,用基于字符串匹配的方法來度量文件之間的相似性。美國斯坦福大學的Brin 等人首次提出了COPS 系統(tǒng)與相應算法,其后提出的SCAM 原型對此進行了改進了。SCAM 借鑒了信息檢索技術中的向量空間模型,使用基于詞頻統(tǒng)計的方法來度量文本相似性。香港理工大學的Si 和Leong 等人采用統(tǒng)計關鍵詞的方法來度量文本相似性,建立了CHECK 原型,并首次在相似性度量中引入文檔的結構信息。到了2000 年,Monostori 等人用后綴樹來搜尋字符串之間的最大子串,建立了MDR 原型。在此之前,全美國的教育工作者們現(xiàn)已懂得綜合運用課堂書寫段落樣本、互聯(lián)網(wǎng)搜索工具和反剽竊技術三結合手段遏制欺騙的源頭。

對于中文論文的抄襲識別,存在更大的困難。漢語與英文不同,它以字為基本的書寫單位,詞與詞之間沒有明顯的區(qū)分標記,因此,中文分詞是漢語文檔處理的基礎。漢語文本抄襲識別系統(tǒng)首先需要分詞作為其最基本的模塊,因此,中文文本自動分詞的好壞在一定程度上影響抄襲識別的準確性。同時計算機在自然語言理解方面有欠缺,而抄襲又不僅僅局限于照抄照搬式的,很難達到準確的抄襲識別。所以解決中文論文抄襲識別問題還不能全盤照搬國外技術。北京郵電大學張煥炯等用編碼理論中漢明距離的計算公式計算文本相似度。

中科院計算所以屬性論為理論依據(jù),計算向量之間的匹配距離,從而得到文本相似度。程玉柱等以漢字數(shù)學表達式理論為基礎,將文本相似度計算轉換為空間坐標系中向量夾角余弦的計算問題。西安交通大學的宋擒豹等人開發(fā)了CDSDG系統(tǒng),采用基于詞頻統(tǒng)計的重疊度度量算法在不同粒度計算總體語義重疊度和結構重疊度。此算法不但能檢測數(shù)字正文整體非法復制行為,而且還能檢測諸如子集復制和移位局部復制等部分非法復制行為。晉耀紅基于語境框架的相似度計算算法,考慮了對象之間的語義關系,從語義的角度給出文本之間的相似關系。大連理工大學的金博、史彥軍、滕弘飛針對學術論文的特有結構,對學術論文進行篇章結構分析,再通過數(shù)字指紋和詞頻統(tǒng)計等方法計算出學術論文之間的相似度。張明輝針對重復網(wǎng)頁問題提出了基于段落的分段簽名近似鏡像新算法。鮑軍鵬等基于網(wǎng)格的文本復制檢測系統(tǒng)提出了語義序列核方法的復制檢測技術。金博、史彥軍、滕弘飛少給出了一個基于語義理解的復制檢測系統(tǒng)架構,其核心是以知網(wǎng)詞語相似度計算為基礎,并將應用范圍擴大到段落。聶規(guī)劃等基于本體的論文復制檢測系統(tǒng)利用語義網(wǎng)本體技術構建論文本體和計算論文相似度。

4 抄襲檢測系統(tǒng)的應用

運用信息技術反剽竊是國內規(guī)范學術行為的有效措施之一。④國外從20 世紀70 年代初,就開始有研究防止程序抄襲的軟件,但直至1991 年第一個自然語言文本抄襲識別軟件WordCheck 才誕生,目前廣泛應用并具有代表性的軟件有很多。如論文作業(yè)抄襲檢查平臺TurnItIn,由iParadigms 開發(fā),系統(tǒng)采用基于數(shù)字指紋的抄襲檢測方法,檢測資源包括網(wǎng)絡資源ProQuest 論文庫、論文作業(yè)庫等。提供的英文反剽竊服務目前已經(jīng)服務于包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等在內的2500 多所高校和科研機構,遍及九十多個國家,檢索網(wǎng)頁數(shù)量超66 億,用戶達650 萬。據(jù)稱,該網(wǎng)站目前已阻止了世界范圍內將近600 萬的學生和教育者的剽竊行為,在使用的高峰期,每天可以收到2 萬篇論文。由Cross-Ref 與iParadigms 共同開發(fā)的抄襲檢測平臺CrossCheck,于2008 年6 月19 日正式啟動。CrossCheck 的功能由兩部分組成:一個基于全球學術出版物所組成的龐大數(shù)據(jù)庫和一個基于網(wǎng)頁的檢驗工具。這個基于網(wǎng)頁的工具可用于編輯過程中去鑒別相似文檔,生成對比報告,并通過分析去判斷是否存有學術剽竊行為。截止2010 年3 月,正式會員包括Elsevier,Springer,牛津出版社,美國科學進步協(xié)會(AAAS),美國物理學會(APS),植物生物學會、《浙江大學學報》(英文版)等75 家單位。

國內已研發(fā)出兩款較成熟的專門軟件,且兩款軟件的核心都是基于數(shù)字指紋的抄襲檢測方法進行文檔相似性檢測。一款是武漢大學沈陽副教授研制的“ROST反剽竊系統(tǒng)”軟件,目前已在全國20 多所高校院系推廣和100 多家期刊社使用。另一款是中國學術期刊電子雜志社與中國知網(wǎng)共同研制的“學術不端文獻檢測系統(tǒng)”,目前全國已有3000 多家期刊和360 所高校的研究生院免費使用這個軟件。ROST 系統(tǒng)和CNKI 系統(tǒng)當前的一個主要差異在于其使用的參照文檔數(shù)據(jù)庫不同。“ROST 反剽竊系統(tǒng)”軟件通過將切割文檔后混合引擎將其與188 億個網(wǎng)頁和490 萬篇文獻進行模糊匹配,標示出每個文本塊與文獻庫中的某些文獻的最大相似度。中國知網(wǎng)從2006 年開始立項研發(fā)基于全文的“學術不端

文獻檢測系統(tǒng)”,以《中國學術文獻網(wǎng)絡出版總庫》為全文比對數(shù)據(jù)庫,采用基于數(shù)字指紋的多階快速檢測方法,支持從詞到句子、篇章級別的數(shù)字指紋,可對圖、表等特殊檢測對象進行基于標題、上下文、圖表內容結合的相似性檢測處理,還可根據(jù)特定的概念、觀點、結論等內容進行智能信息分類處理,實現(xiàn)語義級別內容的檢測。中國知網(wǎng)擁有文獻量居國際國內同類產(chǎn)品之首,這為其進行檢測提供了豐富的對比文獻資源??萍计诳瘷z測系統(tǒng)已經(jīng)檢測的10 多萬篇科技文獻中,文字復制比超過30%的超過1 萬篇;學位論文檢測系統(tǒng)檢測5000 篇學位論文,重合字數(shù)超過1 萬篇的論文約1000 篇。目前Internet 上還有一些提供文本抄襲檢測服務的網(wǎng)站和工具。例如,Plagiarism、mydropbox、WordCheck 等。針對中文的paperpass 提供法學論文和教育社科類論文的免費檢測服務;中國搜網(wǎng)站的文章照妖鏡工具基于谷歌和百度提供免費的檢測服務;拷克提供針對網(wǎng)頁內容抄襲的免費檢測服務。

5 抄襲檢測技術存在的問題

到目前為止,抄襲檢測技術主要集中在文檔復制檢測上,針對圖像、音頻、視頻的抄襲檢測還有賴于基于內容的檢索技術更進一步的發(fā)展。各系統(tǒng)集中解決在同一語種范圍內的抄襲檢測問題,對于中、外文間經(jīng)過翻譯后進行的抄襲行為還沒有很好的檢測解決方案。針對文檔的抄襲研究已經(jīng)取得了很多成果,但是針對論點(或創(chuàng)意)進行的抄襲一般難以直接斷定出來,還需要進一步進行人工判定。另外,對已經(jīng)明確在參考文獻中列出的部分,有的檢測系統(tǒng)在判定抄襲的時候并未進行特別處理。


在線咨詢
在線留言
系統(tǒng)列表
返回頂部