一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁(yè)論文檢測(cè)教程探究論文檢測(cè)系統(tǒng)抄襲的算法原理等技術(shù)研究

探究論文檢測(cè)系統(tǒng)抄襲的算法原理等技術(shù)研究

時(shí)間:2014-04-23 編輯整理:早檢測(cè)網(wǎng) 來(lái)源:早檢測(cè)網(wǎng)

論文抄襲的檢測(cè)是知識(shí)產(chǎn)權(quán)保護(hù)中一項(xiàng)重要的內(nèi)容,已有眾多的識(shí)別方法和系統(tǒng)。本文從抄襲檢測(cè)的技術(shù)概述定義、數(shù)字指紋和詞頻統(tǒng)計(jì)兩大類技術(shù)和方法和抄襲剽竊識(shí)別系統(tǒng)等方面為基本思路,對(duì)該領(lǐng)域中已提出的主要研究方案進(jìn)行了分類闡述和比較分析,總結(jié)了其最新研究進(jìn)展,為下一步的研究提出了新的課題和設(shè)想。

隨著數(shù)字圖書館和互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)字化文檔唾手可得。近年來(lái)學(xué)術(shù)剽竊現(xiàn)象屢見報(bào)端,①公眾人物學(xué)術(shù)造假事件的曝光使得民眾對(duì)學(xué)術(shù)不端行為的關(guān)注進(jìn)一步提升,其行為的危害已經(jīng)引起社會(huì)各界的廣泛重視。如何有效的防范、遏制抄襲等學(xué)習(xí)不端行為成為人們研究的熱點(diǎn),隨著各種抄襲檢測(cè)技術(shù)的研究不斷深入,各種學(xué)術(shù)不端檢測(cè)系統(tǒng)應(yīng)運(yùn)而生。本文要探討的是抄襲的識(shí)別技術(shù)和檢測(cè)工具。

1 研究背景

抄襲現(xiàn)象之所以存在有著多層面的原因,首先,各種利益的驅(qū)動(dòng)或者自身能力的限制使得抄襲者產(chǎn)生了主觀的故意;毫無(wú)疑問,互聯(lián)網(wǎng)的廣泛普及,搜索引擎的強(qiáng)大功能都為抄襲等行為提供了便利;網(wǎng)絡(luò)及各種全文數(shù)據(jù)庫(kù)收藏的海量文獻(xiàn)為抄襲者提供了原材料;抄襲檢測(cè)工具應(yīng)用不夠普及、功能有待提高使得抄襲者心存僥幸;對(duì)抄襲行為可能引起的法律問題嚴(yán)重的認(rèn)知不足等等。抄襲應(yīng)用的領(lǐng)域可能是一篇學(xué)術(shù)論文、一篇博客、一段程序代碼等等,本文關(guān)注的是中文學(xué)術(shù)論文的抄襲。從技術(shù)層面上來(lái)說(shuō),杜絕抄襲可以從兩個(gè)方面入手:一是在寫作過程中阻止;二是在發(fā)表過程中檢測(cè)?!皺z測(cè)”方法的設(shè)計(jì)思路是這樣的:不關(guān)心文章以何種方式完成,只是在定稿的文檔中進(jìn)行檢測(cè),確定其中是否含有抄襲的內(nèi)容即可。顯然使用檢測(cè)的方法來(lái)判別可操作性更強(qiáng)。

2 抄襲檢測(cè)技術(shù)概述

對(duì)于自然語(yǔ)言的抄襲檢測(cè)技術(shù)的核心就是文檔復(fù)制檢測(cè)技術(shù)。文檔復(fù)制檢測(cè)有兩類基本的檢測(cè)方法:一類是基于字符串比較的方法;另一類是基于詞頻統(tǒng)計(jì)的方法?;谧址容^的方法也稱為數(shù)字指紋法,這類方法通過某種選取策略在文檔中取一些字符串作為“指紋”,把指紋映射到Hash 表中,最后統(tǒng)計(jì)Hash 表中相同的指紋數(shù)目或者比率,作為文本相似度依據(jù)。基于詞頻統(tǒng)計(jì)的方法也稱為基于語(yǔ)義的方法。詞頻統(tǒng)計(jì)法源于信息檢索技術(shù)中的向量空間模型,該類方法首先都要統(tǒng)計(jì)每篇文檔中各個(gè)單詞的出現(xiàn)次數(shù),然后根據(jù)單詞頻度構(gòu)成文檔特征向量,最后采用點(diǎn)積、余弦或者類似方式度量?jī)善臋n的特征向量,以此作為文檔相似度的依據(jù)。

3 抄襲檢測(cè)技術(shù)的發(fā)展

使用計(jì)算機(jī)開展抄襲識(shí)別的研究首先要對(duì)數(shù)字文檔進(jìn)行分析處理,而數(shù)字文檔又可分為兩種類別,即:自然語(yǔ)言文本和形式語(yǔ)言文本。形式語(yǔ)言文本比較典型的是計(jì)算機(jī)程序源代碼,雖然抄襲的案例較多,但因其具有規(guī)范的語(yǔ)法和語(yǔ)句結(jié)構(gòu)特點(diǎn),相對(duì)比較容易分析處理,針對(duì)此類抄襲識(shí)別的研究也較早。而自然語(yǔ)言文本(如:論文等)復(fù)制檢測(cè)技術(shù)的出現(xiàn)比程序復(fù)制檢測(cè)晚了20 年。②1993 年,美國(guó)亞利桑那大學(xué)的Manber提出了“近似指紋”概念,基于此提出了sif 工具,用基于字符串匹配的方法來(lái)度量文件之間的相似性。美國(guó)斯坦福大學(xué)的Brin 等人首次提出了COPS 系統(tǒng)與相應(yīng)算法,其后提出的SCAM 原型對(duì)此進(jìn)行了改進(jìn)了。SCAM 借鑒了信息檢索技術(shù)

中的向量空間模型,使用基于詞頻統(tǒng)計(jì)的方法來(lái)度量文本相似性。香港理工大學(xué)的Si 和Leong 等人采用統(tǒng)計(jì)關(guān)鍵詞的方法來(lái)度量文本相似性,建立了CHECK 原型,并首次在相似性度量中引入文檔的結(jié)構(gòu)信息。到了2000 年,Monostori 等人用后綴樹來(lái)搜尋字符串之間的最大子串,建立了MDR 原型。在此之前,全美國(guó)的教育工作者們現(xiàn)已懂得綜合運(yùn)用課堂書寫段落樣本、互聯(lián)網(wǎng)搜索工具和反剽竊技術(shù)三結(jié)合手段遏制欺騙的源頭對(duì)于中文論文的抄襲識(shí)別,存在更大的困難。漢語(yǔ)與英文不同,它以字為基本的書寫單位,詞與詞之間沒有明顯的區(qū)分標(biāo)記,因此,中文分詞是漢語(yǔ)文檔處理的基礎(chǔ)。漢語(yǔ)文本抄襲識(shí)別系統(tǒng)首先需要分詞作為其最基本的模塊,因此,中文文

本自動(dòng)分詞的好壞在一定程度上影響抄襲識(shí)別的準(zhǔn)確性。同時(shí)計(jì)算機(jī)在自然語(yǔ)言理解方面有欠缺,而抄襲又不僅僅局限于照抄照搬式的,很難達(dá)到準(zhǔn)確的抄襲識(shí)別。所以解決中文論文抄襲識(shí)別問題還不能全盤照搬國(guó)外技術(shù)。北京郵電大學(xué)張煥炯等用編碼理論中漢明距離的計(jì)算公式計(jì)算文本相似度。中科院計(jì)算所以屬性論為理論依據(jù),計(jì)算向量之間的匹配距離,從而得到文本相似度。程玉柱等以漢字?jǐn)?shù)學(xué)表達(dá)式理論為基礎(chǔ),將文本相似度計(jì)算轉(zhuǎn)換為空間坐標(biāo)系中向量夾角余弦的計(jì)算問題。西安交通大學(xué)的宋擒豹等人開發(fā)了CDSDG系統(tǒng),采用基于詞頻統(tǒng)計(jì)的重疊度度量算法在不同粒度計(jì)算總體語(yǔ)義重疊度和結(jié)構(gòu)重疊度。此算法不但能檢測(cè)數(shù)字正文整體非法復(fù)制行為,而且還能檢測(cè)諸如子集復(fù)制和移位局部復(fù)制等部分非法復(fù)制行為。晉耀紅基于語(yǔ)境框架的相似度計(jì)算算法,考慮了對(duì)象之間的語(yǔ)義關(guān)系,從語(yǔ)義的角度給出文本之間的相似關(guān)系。大連理工大學(xué)的金博、史彥軍、滕弘飛針對(duì)學(xué)術(shù)論文的特有結(jié)構(gòu),對(duì)學(xué)術(shù)論文進(jìn)行篇章結(jié)構(gòu)分析,再通過數(shù)字指紋和詞頻統(tǒng)計(jì)等方法計(jì)算出學(xué)術(shù)論文之間的相似度。張明輝針對(duì)重復(fù)網(wǎng)頁(yè)問題提出了基于段落的分段簽名近似鏡像新算法。鮑軍鵬等基于網(wǎng)格的文本復(fù)制檢測(cè)系統(tǒng)提出了語(yǔ)義序列核方法的復(fù)制檢測(cè)技術(shù)。金博、史彥軍、滕弘飛少給出了一個(gè)基于語(yǔ)義理解的復(fù)制檢測(cè)系統(tǒng)架構(gòu),其核心是以知網(wǎng)詞語(yǔ)相似度計(jì)算為基礎(chǔ),并將應(yīng)用范圍擴(kuò)大到段落。聶規(guī)劃等基于本體的論文復(fù)制檢測(cè)系統(tǒng)利用語(yǔ)義網(wǎng)本體技術(shù)構(gòu)建論文本體和計(jì)算論文相似度。

4 抄襲檢測(cè)系統(tǒng)的應(yīng)用

運(yùn)用信息技術(shù)反剽竊是國(guó)內(nèi)規(guī)范學(xué)術(shù)行為的有效措施之一。④國(guó)外從20 世紀(jì)70 年代初,就開始有研究防止程序抄襲的軟件,但直至1991 年第一個(gè)自然語(yǔ)言文本抄襲識(shí)別軟件WordCheck 才誕生,目前廣泛應(yīng)用并具有代表性的軟件有很多。如論文作業(yè)抄襲檢查平臺(tái)TurnItIn,由iParadigms 開發(fā),系統(tǒng)采用基于數(shù)字指紋的抄襲檢測(cè)方法,檢測(cè)資源包括網(wǎng)絡(luò)資源ProQuest 論文庫(kù)、論文作業(yè)庫(kù)等。提供的英文反剽竊服務(wù)目前已經(jīng)服務(wù)于包括美國(guó)加州大學(xué)伯克利分校、杜克大學(xué)、德國(guó)漢堡大學(xué)等在內(nèi)的2500 多所高校和科研機(jī)構(gòu),遍及九十多個(gè)國(guó)家,檢索網(wǎng)頁(yè)數(shù)量超66 億,用戶達(dá)650 萬(wàn)。據(jù)稱,該網(wǎng)站目前已阻止了世界范圍內(nèi)將近600 萬(wàn)的學(xué)生和教育者的剽竊行為,在使用的高峰期,每天可以收到2 萬(wàn)篇論文。由Cross-Ref 與iParadigms 共同開發(fā)的抄襲檢測(cè)平臺(tái)CrossCheck,于2008 年6 月19 日正式啟動(dòng)。CrossCheck 的功能由兩部分組成:一個(gè)基于全球?qū)W術(shù)出版物所組成的龐大數(shù)據(jù)庫(kù)和一個(gè)基于網(wǎng)頁(yè)的檢驗(yàn)工具。這個(gè)基于網(wǎng)頁(yè)的工具可用于編輯過程中去鑒別相似文檔,生成對(duì)比報(bào)告,并通過分析去判斷是否存有學(xué)術(shù)剽竊行為。截止2010 年3 月,正式會(huì)員包括Elsevier,Springer,牛津出版社,美國(guó)科學(xué)進(jìn)步協(xié)會(huì)(AAAS),美國(guó)物理學(xué)會(huì)(APS),植物生物學(xué)會(huì)、《浙江大學(xué)學(xué)報(bào)》(英文版)等75 家單位。

國(guó)內(nèi)已研發(fā)出兩款較成熟的專門軟件,且兩款軟件的核心都是基于數(shù)字指紋的抄襲檢測(cè)方法進(jìn)行文檔相似性檢測(cè)。一款是武漢大學(xué)沈陽(yáng)副教授研制的“ROST反剽竊系統(tǒng)”軟件,目前已在全國(guó)20 多所高校院系推廣和100 多家期刊社使用。另一款是中國(guó)學(xué)術(shù)期刊電子雜志社與中國(guó)知網(wǎng)共同研制的“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”,目前全國(guó)已有3000 多家期刊和360 所高校的研究生院免費(fèi)使用這個(gè)軟件。ROST 系統(tǒng)和CNKI 系統(tǒng)當(dāng)前的一個(gè)主要差異在于其使用的參照文檔數(shù)據(jù)庫(kù)不同?!癛OST 反剽竊系統(tǒng)”軟件通過將切割文檔后混合引擎將其與188 億個(gè)網(wǎng)頁(yè)和490 萬(wàn)篇文獻(xiàn)進(jìn)行模糊匹配,標(biāo)示出每個(gè)文本塊與文獻(xiàn)庫(kù)中的某些文獻(xiàn)的最大相似度。中國(guó)知網(wǎng)從2006 年開始立項(xiàng)研發(fā)基于全文的“學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)”,以《中國(guó)學(xué)術(shù)文獻(xiàn)網(wǎng)絡(luò)出版總庫(kù)》為全文比對(duì)數(shù)據(jù)庫(kù),采用基于數(shù)字指紋的多階快速檢測(cè)方法,支持從詞到句子、篇章級(jí)別的數(shù)字指紋,可對(duì)圖、表等特殊檢測(cè)對(duì)象進(jìn)行基于標(biāo)題、上下文、圖表內(nèi)容結(jié)合的相似性檢測(cè)處理,還可根據(jù)特定的概念、觀點(diǎn)、結(jié)論等內(nèi)容進(jìn)行智能信息分類處理,實(shí)現(xiàn)語(yǔ)義級(jí)別內(nèi)容的檢測(cè)。中國(guó)知網(wǎng)擁有文獻(xiàn)量居國(guó)際國(guó)內(nèi)同類產(chǎn)品之首,這為其進(jìn)行檢測(cè)提供了豐富的對(duì)比文獻(xiàn)資源??萍计诳瘷z測(cè)系統(tǒng)已經(jīng)檢測(cè)的10 多萬(wàn)篇科技文獻(xiàn)中,文字復(fù)制

比超過30%的超過1 萬(wàn)篇;學(xué)位論文檢測(cè)系統(tǒng)檢測(cè)5000 篇學(xué)位論文,重合字?jǐn)?shù)超過1 萬(wàn)篇的論文約1000 篇。目前Internet 上還有一些提供文本抄襲檢測(cè)服務(wù)的網(wǎng)站和工具。例如,Plagiarism、mydropbox、WordCheck 等。針對(duì)中文的paperpass 提供法學(xué)論文和教育社科類論文的免費(fèi)檢測(cè)服務(wù);中國(guó)搜網(wǎng)站的文章照妖鏡工具基于谷歌和百度提供免費(fèi)的檢測(cè)服務(wù);拷克提供針對(duì)網(wǎng)頁(yè)內(nèi)容抄襲的免費(fèi)檢測(cè)服務(wù)。

5 抄襲檢測(cè)技術(shù)存在的問題

到目前為止,抄襲檢測(cè)技術(shù)主要集中在文檔復(fù)制檢測(cè)上,針對(duì)圖像、音頻、視頻的抄襲檢測(cè)還有賴于基于內(nèi)容的檢索技術(shù)更進(jìn)一步的發(fā)展。各系統(tǒng)集中解決在同一語(yǔ)種范圍內(nèi)的抄襲檢測(cè)問題,對(duì)于中、外文間經(jīng)過翻譯后進(jìn)行的抄襲行為還沒有很好的檢測(cè)解決方案。針對(duì)文檔的抄襲研究已經(jīng)取得了很多成果,但是針對(duì)論點(diǎn)(或創(chuàng)意)進(jìn)行的抄襲一般難以直接斷定出來(lái),還需要進(jìn)一步進(jìn)行人工判定。另外,對(duì)已經(jīng)明確在參考文獻(xiàn)中列出的部分,有的檢測(cè)系統(tǒng)在判定抄襲的時(shí)候并未進(jìn)行特別處理。


趙春燕  李峣

北京政法職業(yè)學(xué)院

在線咨詢
在線留言
系統(tǒng)列表
返回頂部