一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

首頁(yè)論文檢測(cè)教程通過(guò)詞頻指紋論文檢測(cè)算法統(tǒng)計(jì)論文中抄襲相似度

通過(guò)詞頻指紋論文檢測(cè)算法統(tǒng)計(jì)論文中抄襲相似度

時(shí)間:2014-05-02 編輯整理:早檢測(cè)網(wǎng) 來(lái)源:早檢測(cè)網(wǎng)

An algorithm for plagiarism-detection of scientific papers based on local word-frequency fingerprint is presented. Sentence is regarded as the basic component elements of a document, and extracting efficient keywords, sorting and reconstructing them. According to the code and word-frequency, the fingerprints are get to compute text similarity degree.【提出一種基于局部詞頻指紋的論文抄襲檢測(cè)算法。將句子看成文檔的基本構(gòu)成元素,對(duì)其進(jìn)行有效關(guān)鍵詞提取排序重構(gòu),根據(jù)編碼和詞頻聯(lián)合方式獲取句子指紋,以此計(jì)算文本間相似度。在新聞網(wǎng)頁(yè)精簡(jiǎn)集SOGOU-T 上的實(shí)驗(yàn)結(jié)果表明,該算法在一定程度上克服了現(xiàn)有論文抄襲檢測(cè)算法檢測(cè)精度低的缺點(diǎn),具有較快的檢測(cè)速度?!?/div>

概述

隨著信息共享便捷化,論文抄襲現(xiàn)象呈上升趨勢(shì)。剽竊他人成果,篡改或偽造數(shù)據(jù),給學(xué)術(shù)發(fā)展帶來(lái)嚴(yán)重危害。因此,論文抄襲檢測(cè)技術(shù)[1-2]已成為當(dāng)前研究的熱點(diǎn)。目前,對(duì)于英文論文的抄襲判定已比較成熟,主要采用數(shù)字指紋[3]和詞頻統(tǒng)計(jì)[4]等技術(shù),但對(duì)于中文論文抄襲的判定還存在識(shí)別率低、效率不高等問(wèn)題。文獻(xiàn)[5]提出了基于篇章結(jié)構(gòu)的文檔相似度檢測(cè)算法,根據(jù)學(xué)術(shù)論文特有的篇章結(jié)構(gòu),將文章看作一個(gè)八元組,構(gòu)造檢測(cè)函數(shù)。該方法能夠覆蓋全文特征,但計(jì)算復(fù)雜,當(dāng)樣本庫(kù)規(guī)模較大時(shí),檢測(cè)速度較慢。另外,由于結(jié)構(gòu)與正文是異構(gòu)的,異構(gòu)處理也會(huì)增加算法復(fù)雜度。文獻(xiàn)[6]提出了基于段落相似度的論文抄襲判定方法,用向量空間模型表示文本,用TF-IDF 公式統(tǒng)計(jì)詞頻,根據(jù)向量間夾角余弦計(jì)算相似度。該方法利用詞頻統(tǒng)計(jì)對(duì)段落進(jìn)行檢測(cè),不能體現(xiàn)文檔整體特征。文獻(xiàn)[7]提出了基于句子相似度的文檔復(fù)制檢測(cè)算法,通過(guò)MD5 獲取句子的數(shù)字簽名作為指紋,以數(shù)字指紋的形式進(jìn)行相似度計(jì)算。該方法對(duì)文本的處理簡(jiǎn)單有效,摒棄了復(fù)雜的轉(zhuǎn)換過(guò)程,實(shí)現(xiàn)了生成指紋的唯一性和高分布性。但求解句子的最長(zhǎng)公共子序列花費(fèi)時(shí)間較長(zhǎng),從而使算法的檢測(cè)速度較慢,不適合大規(guī)模樣本庫(kù)檢測(cè)。本文提出一種改進(jìn)的基于句子相似度的局部詞頻指紋算法,對(duì)有效關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),形成整體有序、局部無(wú)序的檢測(cè)結(jié)構(gòu),在保證分類速度的前提下提高了分類精度。

數(shù)字指紋技術(shù)和詞頻統(tǒng)計(jì)技術(shù)

數(shù)字指紋技術(shù)

數(shù)字指紋技術(shù)依據(jù)生成的待比較文檔的指紋,通過(guò)對(duì)比樣本庫(kù)進(jìn)行抄襲檢測(cè)。當(dāng)匹配指紋數(shù)量超過(guò)一定閾值時(shí),認(rèn)定存在抄襲行為。同時(shí),引入松弛因子以提高檢測(cè)的準(zhǔn)確性,使之具有很好的推廣能力。指紋生成算法是數(shù)字指紋技術(shù)的關(guān)鍵,一般利用Hash 函數(shù)對(duì)文檔中的特征標(biāo)記進(jìn)行計(jì)算,獲得唯一整數(shù)值。比較典型的方法是Karp-Rabin 算法,首先用式(1)計(jì)算 Hash(s0 ,m?1)。

其中,s 是長(zhǎng)度為 m 的字符串;p 是一個(gè)大質(zhì)數(shù); i ( 0,1, , s i = m?1) 為 s 中第 i 個(gè)字符的編碼。然后根據(jù)式(2)計(jì)算1 Hash(s ,m)。


以此類推,得到整個(gè)文檔的指紋序列,根據(jù)指紋進(jìn)行相似度檢測(cè)。采用數(shù)字指紋技術(shù),檢測(cè)速度快,適合大規(guī)模運(yùn)算,但只能用于精確檢測(cè),對(duì)局部相似檢測(cè)的準(zhǔn)確率較低。

詞頻統(tǒng)計(jì)技術(shù)

詞頻統(tǒng)計(jì)技術(shù)主要借助向量空間模型來(lái)實(shí)現(xiàn)。在此模型中,文檔由一系列特征表示,特征可以是字、詞、句等。一篇文檔可表示為 ( 1, 2 , , n ) D t t ?? t ,其中, i ( 1,2, , ) t i = n 表示各個(gè)特征項(xiàng)。根據(jù)式(3)為每個(gè)項(xiàng)賦予一個(gè)權(quán)重。

其中,tfi (d)為詞條 ti 在 d 中出現(xiàn)的頻率;N 為所有文檔的數(shù)目; ni 為出現(xiàn) ti的次數(shù)。這樣,文檔表示為 D(t1,w1;t2;w2;??,tn ,wn ) ,簡(jiǎn)化形式為 1 2 D = D(w ,w ,??,wn ) 。在所生成特征向量的基礎(chǔ)上,根據(jù)式(4)計(jì)算2 個(gè)文檔的相似度:

其中,N 為特征項(xiàng)的個(gè)數(shù);wi 為第i 項(xiàng)的權(quán)重。詞頻統(tǒng)計(jì)技術(shù)能夠?qū)崿F(xiàn)近似檢測(cè),準(zhǔn)確率較高,但其檢測(cè)速度較低,查準(zhǔn)閾值的設(shè)定也有待確定和證明。

本文算法描述

許多抄襲論文是打亂原論文的順序,進(jìn)行一定的增加或減少,不會(huì)對(duì)抄襲內(nèi)容做實(shí)質(zhì)性修改。為此,本文提出了一種基于局部詞頻指紋的抄襲檢測(cè)算法。算法的基本思想是將句子看成文檔的基本構(gòu)成元素,對(duì)其進(jìn)行有效關(guān)鍵詞提取,并排序重構(gòu),根據(jù)編碼和詞頻聯(lián)合方式獲取句子指紋,以此計(jì)算文本間相似度。具體算法描述如下:

步驟1 文檔預(yù)處理。分詞,去除虛詞和停用詞,同時(shí)將

保留詞記為關(guān)鍵詞。

步驟2 以句子為單位生成向量空間模型。將一篇文檔看

作若干句子的集合D ,1NiiDS== ∪ 。其中,N 為句子個(gè)數(shù); Si = (w1,2, , n ) w ?? w ,wj ( j = 1,2,??,n)為句子 i S 中第j 個(gè)非重復(fù)關(guān)鍵詞的權(quán)重,根據(jù)式(5)計(jì)算權(quán)重。


其中, ( j ) Enc k 為關(guān)鍵詞j k 的編碼; j ( ) tf S 為關(guān)鍵詞j k 在句子中出現(xiàn)的頻率;N 為文檔中句子的總數(shù); j n 為j k 出現(xiàn)的次數(shù)。

步驟3 根據(jù)式(6)計(jì)算每個(gè)向量的指紋i fp 。

其中,n 為句子i S 中非重復(fù)關(guān)鍵詞的個(gè)數(shù);p 為一個(gè)32 位或64 位的大質(zhì)數(shù)。

步驟4 選取全指紋,將待檢測(cè)文檔與樣本庫(kù)中每個(gè)文檔進(jìn)行比較,利用式(7)計(jì)算文檔相似度:


其中,F(xiàn)P(A, x) 和 FP(B, x) 分別為文檔 A、B 生成的指紋集合。利用式(9)計(jì)算文檔之間的相似距離:

步驟 5 根據(jù)相似距離 d(A,B)確定文檔抄襲程度。

實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)所用語(yǔ)料為新聞網(wǎng)頁(yè)精簡(jiǎn)集SOGOU-T,從中選取1 990 篇文檔作為基礎(chǔ)數(shù)據(jù)集(Fundamental Datasets,FD),預(yù)處理后形成指紋存入數(shù)據(jù)庫(kù),作為抄襲檢測(cè)依據(jù)。測(cè)試文檔集由兩部分文檔組成,一部分從基礎(chǔ)數(shù)據(jù)集中選取(640 篇),并做不同種類的修改,構(gòu)成論文抄襲集(Modify Texts,MT);另一部分從SOGOU-T 中隨機(jī)選取(160 篇),構(gòu)成隨機(jī)測(cè)試集(Random Texts, RT)。

定義 RTn表示從隨機(jī)集中選取 n 篇文檔; iMTn 表示從抄襲集中選取n 個(gè)做第i 類修改的文檔,具體修改種類如下:

(1)未做修改;(2)段落位置調(diào)整;(3)部分段落刪除;(4)句子

位置調(diào)整;(5)部分句子刪除;(6)句子修改,增加、減少關(guān)鍵

詞、打亂順序;(7)多篇文檔拼湊;(8)多篇文檔拼湊且內(nèi)容做

較大修改。

實(shí)驗(yàn)中采用準(zhǔn)確率P、召回率R 和F1 作為評(píng)價(jià)指標(biāo)。

A=檢測(cè)相似且實(shí)際也相似的文檔數(shù)

B=檢測(cè)相似但實(shí)際不相似的文檔數(shù)

C=實(shí)際相似但檢測(cè)不相似的文檔數(shù)

實(shí)驗(yàn)環(huán)境為:CPU Pentium 2.93 GHz;內(nèi)存1 GB;操作系統(tǒng)為Windows XP。文檔相似距離閾值取0.4。

表1 給出算法在不同測(cè)試集上進(jìn)行檢測(cè)得到的準(zhǔn)確率、召回率和F1 值。表2 給出了數(shù)字指紋法、詞頻統(tǒng)計(jì)法和本文算法在整個(gè)測(cè)試集上進(jìn)行檢測(cè)的準(zhǔn)確率、召回率和F1 值。

實(shí)驗(yàn)結(jié)果表明,本文算法具有較好的檢測(cè)性能,準(zhǔn)確率高于詞頻統(tǒng)計(jì)法,與數(shù)字指紋法相當(dāng);召回率較詞頻統(tǒng)計(jì)法和數(shù)字指紋法都有較大幅度的提高;檢測(cè)速度比數(shù)字指紋法略低,比詞頻統(tǒng)計(jì)法快3 倍。由此可知,本文算法具有較高的識(shí)別精度和較快的識(shí)別速度,在一定程度上彌補(bǔ)了數(shù)字指紋法修改文檔識(shí)別率低和詞頻統(tǒng)計(jì)法識(shí)別速度慢的缺陷。

結(jié)束語(yǔ)

本文提出的基于局部詞頻指紋的論文抄襲檢測(cè)算法在一定程度上彌補(bǔ)了數(shù)字指紋法和詞頻統(tǒng)計(jì)法的不足,提高了檢測(cè)精度和檢測(cè)速度。采用該算法在新聞網(wǎng)頁(yè)精簡(jiǎn)集SOGOU-T上進(jìn)行了檢測(cè)實(shí)驗(yàn),結(jié)果表明了其有效性。但該算法還存在實(shí)驗(yàn)統(tǒng)計(jì)4 個(gè)參數(shù)。平均耗時(shí):130 次連續(xù)運(yùn)算的平均每次消耗時(shí)間(單位:s);命中率:130 次連續(xù)運(yùn)算結(jié)果沒(méi)有墜入局部最優(yōu)的次數(shù)比例;平均迭代次數(shù):循環(huán)運(yùn)算滿足停止條件的平均次數(shù),第1 個(gè)函數(shù)對(duì)每代結(jié)果平均值變化判斷是否結(jié)束運(yùn)算,第2 個(gè)函數(shù)用固定的迭代次數(shù);平均最優(yōu)值:反映其收斂精度。采用多個(gè)測(cè)試函數(shù)進(jìn)行測(cè)試,限于篇幅,只選取具代表性的2個(gè)。


其中 ,定 義 域 i [ 5.12,5.12] x ∈ ? ;最小 值 為 min( f ) = f (0,0,??,0) = 0。

實(shí)驗(yàn)1 采用的是Rastigrin 函數(shù),區(qū)域機(jī)制x1、x2 軸均劃分4 個(gè)區(qū)域合共16 個(gè)區(qū)域,10 次等步長(zhǎng)區(qū)域移動(dòng)后與初態(tài)重合,每個(gè)區(qū)域中2 個(gè)種子作為進(jìn)化種群,種群規(guī)模為32。實(shí)驗(yàn)2 屬于高維函數(shù),Record 采用隨機(jī)取若干維進(jìn)行移動(dòng)(優(yōu)勝者優(yōu)先[1]Record)以及采用隨機(jī)取運(yùn)算區(qū)域等針對(duì)高維函數(shù)的機(jī)制。其中,每維分4 個(gè)區(qū)域,區(qū)域移動(dòng)機(jī)制每次選10 維進(jìn)行等值微調(diào),處理機(jī)種群規(guī)模μ 為50,每次選取25 個(gè)區(qū)域進(jìn)行處理。尋優(yōu)效果曲線只顯示前500 代的情況。各算法分別獨(dú)立運(yùn)算130 次,圖2、表1 分別是實(shí)驗(yàn)1 的算法最優(yōu)值變化曲線和實(shí)驗(yàn)結(jié)果考察參數(shù)。圖3、表2 是實(shí)驗(yàn)2的算法最優(yōu)值變化曲線和實(shí)驗(yàn)結(jié)果考察參數(shù)。



2 個(gè)函數(shù)的實(shí)驗(yàn)結(jié)果表明,3 個(gè)算法均使用相同的種群規(guī)模,雖然SDMGAs 每代消耗的時(shí)間比IPSA 稍微多,但無(wú)論是收斂速度,還是命中率均有很好的效果。在390 次運(yùn)算中,SDMGAs 都命中最大適應(yīng)度值領(lǐng)域,而且非常有效地避免早熟現(xiàn)象。

搜索空間劃分移動(dòng)策略通過(guò)區(qū)間處理機(jī)、區(qū)域移動(dòng)劃分機(jī)制以及一個(gè)用于控制的Record,既把隨機(jī)個(gè)體盡可能均勻在求解區(qū)域中,又提高了收斂速度。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)該算法效率高,尋優(yōu)能力強(qiáng)。該算法構(gòu)造了一種框架,有相當(dāng)?shù)目蓛?yōu)化空間,并可應(yīng)用于各種智能計(jì)算及工程控制領(lǐng)域中。


在線咨詢
在線留言
系統(tǒng)列表
返回頂部