時間:2014-03-25 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)
學術不端行為的種類很多,概念的界定也不盡相,同,公認的學術不端包括一稿多投抄襲剽竊重復發(fā),表虛假注釋不實參考文獻等,另外國內學者還提出,了一些其他學術不端行為,如學術成果低水平重復發(fā),表,期刊的增刊及加大頁碼等。
2008年底,中國學,術期刊(,光盤版),電子雜志社與同方知網(wǎng)技術有限公,司合作成立CNKI,科研誠信管理系統(tǒng)研究中心,成功,開發(fā)出旨在檢測學術文獻當中不端行為的學術不端文,獻檢測系統(tǒng),包括科技期刊AMLC系,統(tǒng),學,位,論,文,AMLC系統(tǒng)和社會科學AMLC系統(tǒng),該系統(tǒng)以中國,學術文獻網(wǎng)絡出版總庫為全文對比數(shù)據(jù)庫,可檢測,抄襲剽竊偽造篆改不當署名,一稿多投等學術不,端行為,并支持各刊自建對比庫。
放射學實踐自2010年初開始使用該系統(tǒng),對,全部來稿進行了檢測,并對檢測結果進行了統(tǒng)計分析,,認為該系統(tǒng)對醫(yī)學科技期刊遏制學術不端行為具有一,定的作用,但尚不能代替編輯的這一部分工作。
檢測指標:,主要指標有總重合字數(shù)總文字重合度,及連續(xù)重合文字,輔助指標有首部重合文字數(shù)首部重,合度尾部重合文字數(shù)及尾部重合度,總文字重合度,也叫總文字復制比,是最重要的檢測指標,即系統(tǒng)將提,交的文章與對比庫中的文獻進行對比,統(tǒng)計出總重合,字數(shù),除以提交文章的總字數(shù)得出的一個比例,首部,重合度即論文開頭部分重合字數(shù)所占的比例,尾部重,合度即論文結尾部分重合字數(shù)所占的比例,對于醫(yī)學,學術論文,一般開頭部分均是綜述性的報告介紹,其重,要性遠低于論文尾部,所以一般首部重合度較高,而尾,部重合度較低。
系統(tǒng)主要以總文字重合度的10%,30%,50%為,界進行劃分,以連續(xù)重合文字為輔助指標,對所提交,論文的劃分為以下5種情況(,表1):提交論文后,系統(tǒng)會很快(1天之內)給出檢測數(shù)據(jù),那我們怎么根據(jù)檢測數(shù)據(jù)進行判斷呢首先最根本的判斷。依據(jù)是文字重合度,依照現(xiàn)在國內的做法是:如果文字重合30%,可認為不存在整體抄襲,30%-50%需重點排查,而50%的稿件會被認定為存在整體抄襲的很大可能性。
放射學實踐自2010年初使用本系統(tǒng),對全部來稿進行檢測,共檢測論文433篇,其中220篇出現(xiàn)重合文字,約占所有被檢測論文的50.8%(220/433);文字重合度在30%以上的有57篇,約占所有被檢測論文的13.2%(57/433);文字重合度在50%以上的有20篇,約占所有被檢測論文的4.6%(20/433);經(jīng)本刊編輯人員仔細對比分析,認定為整體抄襲的論文有8篇,約占所有被檢測論文的1.8%(8/433)被認定為整體抄襲的8篇論文的相關檢測數(shù)據(jù)見表2,從表2中可以看出,7篇(7/8)論文的文字重合度比50%,只有1篇論文的文字重合度50%,但此篇論文的研究方法部分和結果部分的實驗數(shù)據(jù)和數(shù)據(jù)庫中的一篇論文完全一樣,所以被認定為整體抄襲而單篇文獻最大文字重合度分布大致和文字重合度相當。首部重合度作為輔助檢測指標,作用有限,從被認定為整體抄襲的8篇文章中可以看出,首部重合度數(shù)據(jù)的分布沒有規(guī)律可循,因此對于判定是否為整體抄襲的價值較小。尾部重合度作為另外一個輔助指標,從8篇整體抄襲的文章可以看出,7篇( 7/8) 論文的尾部重合度均50%,因此尾部重合度是一個比較重要的參考指標。
從表中可以看出,此13篇論文的文字重合度雖然。均50%,但單篇文獻最大文字重合度均50%(論文1為綜述,經(jīng)過編輯人員仔細對比分析,不認為是整體抄襲),而被認定為整體抄襲的8篇論文中,7篇的。單篇文獻最大文字重合度50%,可見,單篇文獻最大文字重合度是判定是否為整體抄襲的最敏感指標。而尾部重合度和文字重合度的分布具有相似性,在判定。是否整體抄襲上具有一定價值,但不及單篇文獻最大文字重合度敏感
論文提交后,系統(tǒng)在首頁給出最基本的檢測數(shù)據(jù),。包括連續(xù)重合文字和總文字重合度,其中總文字重合。度作為判定抄襲的最根本指標。下面根據(jù)三種不同的。情況進行分析:第一種情況:文字重合度30%的稿件,這種稿件基本可以認定為不存在整體抄襲,但是也。不能確定其不存在整體抄襲的可能,以下是存在整體。抄襲,但系統(tǒng)無法檢測的情況:(1)在網(wǎng)絡上通過其他途徑,比如其他網(wǎng)絡數(shù)據(jù)庫,論壇,博客,微博等傳播的文獻,在科普性期刊中容易出現(xiàn)此類整體抄襲,而專業(yè)的科技期刊則比較少見。[4];(2)編輯部在審稿件,審通過待錄用的稿件,已經(jīng)發(fā)表但還未錄入數(shù)據(jù)庫的稿件。以及退稿和增刊中的稿件;(3)其他未在網(wǎng)絡上公開。的稿件,如僅有紙質版的稿件等。第二種情況:文字重合度50%的稿件,這種稿件系統(tǒng)認為存在整體抄襲。的很大可能性,但以下幾種情況需要我們具體情況具。體分析:(1)退稿重投,主要是先前被退稿件被加入了。自對比數(shù)據(jù)庫,這種情況需仔細分析,如果新投來的稿。件和以前被退稿件沒有什么差別,也可以退掉,如果確實修改到位了,可以繼續(xù)審稿;(2)同一作者撰寫的有。延續(xù)性的研究成果,這類稿件,往往文字重合度較高,。因為文章延續(xù)了此前文章的方法和某些結果結論,此時不應武斷地認定為整體抄襲;(3)綜述類文章文字。重合度一般較高,但由于好的綜述類文章肯定有作者。獨到的見解,因此單純因文字重合度高而否定價值是。值得商榷的。根據(jù)本組數(shù)據(jù),文字重合度50%的論。文中,僅有35%(7/20)被認定為整體抄襲,因此對于文字重合度50%的論文不應簡單地認定為整體抄襲,而應查看更具體的檢測數(shù)據(jù),其中最重要的指標就。是單篇文獻最大文字重合度,如果單篇文獻最大文字重合度也50%,可基本認定為整體抄襲,最終確認還。需與文章進行仔細對比分析第三種情況,對于文字復制比在30%-50%的稿件,為保險起見,可將其視為文字重合度50%的情況進行處理。
文獻不端檢測系統(tǒng)具有以下優(yōu)點:(1)該系統(tǒng)支持多種格式的論文,如最常用的WORD格式和PDF格。式等;(2)海量比對文獻資源:涵蓋期刊博碩士學位論文會議論文報紙專利等學術資源數(shù)據(jù),還包括網(wǎng)。頁資源數(shù)據(jù)數(shù)百萬的英文學術文獻數(shù)據(jù),并實現(xiàn)定期比對數(shù)據(jù)更新;(3)檢測速度快:秒級響應速度,實時。檢測結果反饋,一篇5000字的文獻只需1秒鐘;(4)支持英文文獻檢測:對中文期刊的英文摘要可以進行檢測,對英文期刊可以進行全文檢測,豐富檢測內容;(5)對檢測結果進行分類,并用不同的顏色進行標注:如沒有文字重合的文章用綠色標注,文字重合度0-30%的文章用黃色進行標注,文字重合度30%-50%的文章用橙色進行標注,文章重合度50%以上的文章用紅色進行標注由于需要對每篇來稿進行檢測,工作量較大,編輯可以只看檢測結果為橙色和紅色標注的文章,而這兩類的文章數(shù)量較少,從而減輕了工作量,提高了效率。
文獻不端檢測系統(tǒng)有如下缺點:(1)此系統(tǒng)對數(shù)字符號圖表及字母不敏感,檢測結果往往將這些顯示為亂碼而無法識別,同一句話即使其中的數(shù)據(jù)或符號不同,也會被認為文字重復,如一個課題的系列研究中需要研究多個因子時,則容易被認為文字重復,甚至被認為是段落抄襲或整體抄襲,本刊為影像期刊,圖片較多,對此系統(tǒng)無法進行檢測,限制了其使用范圍;(2)系統(tǒng)不僅僅對比標題摘要和正文,還對比作者單位和參考文獻,如果作者單位和參考文獻相同,也會被認定為文字重復這樣就提高了文字重合度,造成某種程度上的數(shù)據(jù)失真;(3)文章格式對檢測結果有影響雖然此系統(tǒng)支持多種格式的對比,但實際效果卻不同,比如同一篇文章,用WORD格式和PDF格式進行對比,其文字重合度卻并非100%[2];(4)下面情況容易出現(xiàn)高的文字重合度:不同作者研究同一組資料時,對資料的描述可能一樣,此時文字重合度較高;研究性論文在討論部分容易抄襲其他文章,此部分會出現(xiàn)較高的文字重合度;統(tǒng)計方法部分,統(tǒng)計軟件和統(tǒng)計方法的一般描述經(jīng)常是一樣的,此時會出現(xiàn)較高的文字重合度[5],對以上幾種情況都需編輯進行仔細核查;由于系統(tǒng)只是進行簡單的比對,容易通過簡單的修改降低文字重合度有些作者投稿之前,先通過某些途徑利用此系統(tǒng)進行檢測,如果文字重合度較高,通過修改個別字或者符號等就可以降低文字重合度,從而順利通過系統(tǒng)檢測。
本刊使用此系統(tǒng)3個月以來,共檢出8篇整體抄襲文章,效率遠遠高于此前未采用本系統(tǒng)時,使用中有三點體會:(1)及時檢測來稿,對檢測屬于整體抄襲的稿件,直接退稿,不用送審,以免浪費人力物力;(2)在每一期發(fā)稿之前再進行一遍檢測,因為從來稿到發(fā)稿,一般都需要半年到1年,甚至更長時間,來稿的時候檢測沒問題的文章并不代表發(fā)稿的時候檢測也沒問題原因在于從來稿到發(fā)稿這段時間內對比數(shù)據(jù)庫發(fā)生了改變,數(shù)據(jù)庫文章增多了;(3)及時更新對比數(shù)據(jù)庫,首先就是及時把已發(fā)表的文章上傳至數(shù)據(jù)庫,另外就是把一些退稿,增刊等其他形式的未在正刊錄用的文章加進對比庫,以免重復勞動。
此系統(tǒng)是智能很強的系統(tǒng),能幫助我們快速有效地檢索,時效性也很強,提高了工作效率但稿件情況非常復雜,說到底,此系統(tǒng)只不過是程序的集合體,并不能代替編輯的工作,只是給我們提供參考信息,電腦不能代替人腦,具體問題需要具體分析。
石鶴,明 橋,夏黎明,汪 曉,汪 玲,楊 岷