時(shí)間:2014-09-20 編輯整理:早檢測(cè)網(wǎng) 來源:早檢測(cè)網(wǎng)
武漢大學(xué)信息管理學(xué)院的副教授沈陽在接受《中國(guó)新聞出版報(bào)》采訪時(shí)坦言,“ROST 反剽竊系統(tǒng)”受追捧的程度這么高,是他之前未曾預(yù)料到的。
從興趣上升為責(zé)任
1992 年作為江西省贛州市的理科狀元,沈陽曾經(jīng)滿懷希望前往武漢大學(xué)攻讀情報(bào)專業(yè)。當(dāng)初抱著想當(dāng)“間諜”的夢(mèng)想,到校學(xué)習(xí)后才發(fā)現(xiàn)情報(bào)專業(yè)并不是想象中的那樣神秘。一直讀理科的他,大學(xué)4 年卻都學(xué)的是文科知識(shí)內(nèi)容,漸漸地沈陽對(duì)自己所學(xué)的專業(yè)失去了興趣,甚至有些失望了。大四時(shí),他開始接觸電腦游戲,可他并沒有沉迷于其中,反而對(duì)系統(tǒng)編程情有獨(dú)鐘。他開始向別人請(qǐng)教軟件編程與制作,并利用空閑時(shí)間在一家軟件公司兼職學(xué)習(xí)。憑著聰明、踏實(shí)、勤奮,他很快掌握了軟件制作的技術(shù)。幾年的積累,他體會(huì)最深的就是:自己一定要掌握軟件新技術(shù),要開發(fā)一些可以引領(lǐng)行業(yè)方向的領(lǐng)先技術(shù),要有超前的思維意識(shí),不能僅靠著和其他公司一樣都能做出的軟件去占領(lǐng)市場(chǎng),市場(chǎng)需要的不單是跟風(fēng)之作。這一直是他制作、研發(fā)軟件的核心理念。帶著這樣的執(zhí)著他一路走到了技術(shù)總監(jiān)的職位。工作上的成就,并沒有讓他停下學(xué)習(xí)的腳步?;貧w學(xué)校的他繼續(xù)走在研究的路上,他說,自己喜歡學(xué)校那種濃郁的學(xué)習(xí)氛圍。2003 年沈陽以訪問學(xué)者的身份去美國(guó)賓州大學(xué)以及麻省理工大學(xué)進(jìn)行學(xué)術(shù)交流,在那里他看到了國(guó)外先進(jìn)的技術(shù)和保護(hù)知識(shí)產(chǎn)權(quán)理念。當(dāng)他看到國(guó)外有反抄襲的檢測(cè)軟件時(shí),直覺告訴他,國(guó)內(nèi)也應(yīng)該做些檢測(cè)抄襲的軟件。而且作為老師,自己也需要這么一套軟件用來自測(cè)。
1992 年作為江西省贛州市的理科狀元,沈陽曾經(jīng)滿懷希望前往武漢大學(xué)攻讀情報(bào)專業(yè)。當(dāng)初抱著想當(dāng)“間諜”的夢(mèng)想,到校學(xué)習(xí)后才發(fā)現(xiàn)情報(bào)專業(yè)并不是想象中的那樣神秘。一直讀理科的他,大學(xué)4 年卻都學(xué)的是文科知識(shí)內(nèi)容,漸漸地沈陽對(duì)自己所學(xué)的專業(yè)失去了興趣,甚至有些失望了。大四時(shí),他開始接觸電腦游戲,可他并沒有沉迷于其中,反而對(duì)系統(tǒng)編程情有獨(dú)鐘。他開始向別人請(qǐng)教軟件編程與制作,并利用空閑時(shí)間在一家軟件公司兼職學(xué)習(xí)。憑著聰明、踏實(shí)、勤奮,他很快掌握了軟件制作的技術(shù)。幾年的積累,他體會(huì)最深的就是:自己一定要掌握軟件新技術(shù),要開發(fā)一些可以引領(lǐng)行業(yè)方向的領(lǐng)先技術(shù),要有超前的思維意識(shí),不能僅靠著和其他公司一樣都能做出的軟件去占領(lǐng)市場(chǎng),市場(chǎng)需要的不單是跟風(fēng)之作。這一直是他制作、研發(fā)軟件的核心理念。帶著這樣的執(zhí)著他一路走到了技術(shù)總監(jiān)的職位。工作上的成就,并沒有讓他停下學(xué)習(xí)的腳步?;貧w學(xué)校的他繼續(xù)走在研究的路上,他說,自己喜歡學(xué)校那種濃郁的學(xué)習(xí)氛圍。2003 年沈陽以訪問學(xué)者的身份去美國(guó)賓州大學(xué)以及麻省理工大學(xué)進(jìn)行學(xué)術(shù)交流,在那里他看到了國(guó)外先進(jìn)的技術(shù)和保護(hù)知識(shí)產(chǎn)權(quán)理念。當(dāng)他看到國(guó)外有反抄襲的檢測(cè)軟件時(shí),直覺告訴他,國(guó)內(nèi)也應(yīng)該做些檢測(cè)抄襲的軟件。而且作為老師,自己也需要這么一套軟件用來自測(cè)。
回國(guó)后,他就開始著手于反剽竊軟件的研發(fā)了,他想著先做演示版出來供自己使用。他把這個(gè)想法告訴了當(dāng)時(shí)的同事,大家都很支持,也都表示希望能將自己寫的東西或?qū)W生的論文做做檢
測(cè),畢竟一些“學(xué)術(shù)原罪”是有的,如果一些教材上的文章都是抄襲之作還怎么用來教書育人?2006 年,他先向國(guó)家有關(guān)部門申請(qǐng)反剽竊軟件相關(guān)技術(shù)的兩項(xiàng)專利,但還忙于研究其他項(xiàng)目的沈陽并沒有立即展開“反剽竊”原型升級(jí)。一件發(fā)生在自己身上的被拷貝抄襲事件讓沈陽加快了研發(fā)反剽竊軟件的節(jié)奏。有一次,沈陽把準(zhǔn)備投稿在期刊上的文章拿給一位同事看,不久后,他發(fā)現(xiàn)那位同事也寫了一篇和他論文內(nèi)容類似的文章。面對(duì)這種公然的學(xué)術(shù)抄襲沈陽很生氣,雖然抄襲的文章經(jīng)過改動(dòng)已經(jīng)變得不那么像了,可是想著勞動(dòng)成果被盜用他心里就不舒服。這種文章被抄襲的尷尬與無奈讓沈陽意識(shí)到,遏制這種抄襲之風(fēng),從技術(shù)領(lǐng)域揭露抄襲行為已到了刻不容緩的地步。此時(shí),他深知研發(fā)反剽竊軟件已不單是興趣,它已上升為一種責(zé)任,是一種反對(duì)學(xué)術(shù)不端行為的正義之舉。
“抄襲”有市場(chǎng),研發(fā)經(jīng)歷困難也有樂趣
俗話說,萬事開頭難。雖然已經(jīng)開發(fā)過 50 多個(gè)軟件產(chǎn)品,自己獨(dú)立編碼完成的軟件也有十七八個(gè),可資金少、人力資源不足,還是讓軟件開發(fā)的工作充滿困難。他自己完成了大約80%的程序編輯,剩下的編程由他帶的兩個(gè)學(xué)生完成。他想到,軟件制成之后在技術(shù)上為反剽竊工作提供了技術(shù)檢測(cè)支持;要用自己的力量與學(xué)術(shù)不端行為抗衡,從行動(dòng)上支持學(xué)術(shù)打假工作;困難需要人去克服,自己有責(zé)任和義務(wù)堅(jiān)持在困難中完成這項(xiàng)具有社會(huì)意義的工作。學(xué)習(xí)的日子總是會(huì)遇到困難的。聰明的學(xué)者會(huì)把做研究時(shí)遇到的枯燥與寂寞當(dāng)成一杯咖啡去品嘗,苦中有甜。軟件最初檢測(cè)器的設(shè)計(jì)、信息指紋法的應(yīng)用要求他制作一個(gè)快速查找中文詞典的系統(tǒng)。沈陽制作了一套程序,在速度上可以趕超世界先進(jìn)水平,他用自己女兒的名字為這個(gè)獨(dú)家研制出的算法命名。這樣的運(yùn)算、演算過程讓他充分享受到了研究帶來的樂趣。截至2009 年6月,沈陽已在反剽竊軟件領(lǐng)域獲得一項(xiàng)專利授權(quán),申請(qǐng)兩項(xiàng)專利,發(fā)表7 篇論文(含5 篇英文文章,其中一篇發(fā)表于數(shù)字圖書館領(lǐng)域國(guó)際排名第一的會(huì)議JCDL2009),開發(fā)了一系列輔助工具,在該領(lǐng)域取得了重要進(jìn)展。
國(guó)內(nèi)抄襲之風(fēng)愈演愈烈的今天,他深知憑借個(gè)人力量不可能把這一陋習(xí)消除。他認(rèn)識(shí)到,國(guó)內(nèi)的抄襲之風(fēng)是有其社會(huì)根源、歷史根源和現(xiàn)實(shí)根源的。人們向來喜愛引用一些名言名句為自己的文章引經(jīng)據(jù)典,這種無意識(shí)的抄襲行為甚至貫穿了我們文章寫作的過程中。再有老師的論文中也存在學(xué)術(shù)原罪,已有的教材雷同度也高得嚇人,讓人們很難避免抄襲行為。加之,社會(huì)追求速度化、利益化現(xiàn)象嚴(yán)重,各行各業(yè)都在追求數(shù)量放棄或犧牲質(zhì)量的浮躁心理也極大程度地影響了高校的學(xué)術(shù)風(fēng)氣,抄襲在所難免。怎么轉(zhuǎn)變?nèi)藗儗?duì)學(xué)術(shù)抄襲固有的認(rèn)識(shí)?怎樣才能打開國(guó)內(nèi)市場(chǎng)把自己的軟件推廣出去?經(jīng)過一年多的實(shí)踐,他在市場(chǎng)中看到了“ROST 反剽竊系統(tǒng)”的實(shí)用價(jià)值。雖然開始時(shí)各大院系并不推崇用一套軟件檢測(cè)學(xué)生的論文的真實(shí)性,隨著清華同方知網(wǎng)研制的“學(xué)術(shù)測(cè)謊儀”的面世,未來“ROST 反剽竊系統(tǒng)”的客戶不光是各大院系、出版社、期刊社、及政府、法院、知識(shí)產(chǎn)權(quán)技術(shù)鑒定部門,更大的市場(chǎng)將在整個(gè)數(shù)字出版行業(yè),而數(shù)字出版已從早期的賣產(chǎn)品(電子書、版權(quán))發(fā)展到了以反剽竊軟件為代表的內(nèi)容挖掘業(yè)務(wù)上來。反剽竊軟件與數(shù)字出版相結(jié)合的新形態(tài)將會(huì)促進(jìn)數(shù)字出版發(fā)展。
將反剽竊研究進(jìn)行到底
2008 年4 月產(chǎn)品面市,而面對(duì)2008 年12 月清華同方知網(wǎng)研制的類似“學(xué)術(shù)測(cè)謊儀”軟件,沈陽并不太擔(dān)心二者的沖突、雷同。因?yàn)樵谒磥?,這2 套軟件差異很大。首先,從設(shè)計(jì)目標(biāo)上講,“ROST 反剽竊系統(tǒng)”由檢測(cè)器、閱讀器、測(cè)定文獻(xiàn)比較器3 部分組成。最先設(shè)計(jì)時(shí)也是考慮從教師自身需要出發(fā),主要用于預(yù)防剽竊,檢測(cè)文章內(nèi)容是否抄襲。而清華同方知網(wǎng)研制的“學(xué)術(shù)測(cè)謊儀”更側(cè)重鑒定剽竊。其次,在技術(shù)算法上,二者也有區(qū)別?!皩W(xué)術(shù)測(cè)謊儀”主要采用“自適應(yīng)多階指紋法”,而沈陽設(shè)計(jì)的軟件是在信息指紋法的基礎(chǔ)上加柔性匹配共同檢測(cè)一篇文章內(nèi)容。
舉例而言,取一段內(nèi)容從中挑選特征字先進(jìn)行絕對(duì)匹配,再適度做柔性匹配的方法檢測(cè)文章內(nèi)容。先取定一個(gè)預(yù)值,檢測(cè)結(jié)果如果相似度超過95%系統(tǒng)就會(huì)認(rèn)定此文章為全文拷貝,少有修改;如果相似度在85%以上則被認(rèn)定為略經(jīng)修改的拷貝文章。在選取預(yù)值確定相似度參考衡量指標(biāo)時(shí)要尋找一個(gè)平衡點(diǎn),平衡精判、避免誤判。既要肯定他人自我創(chuàng)造的勞動(dòng)成果,也要緩解、控制學(xué)術(shù)不端行為的愈演愈烈。再次,二者覆蓋資源不同?!皩W(xué)術(shù)測(cè)謊儀”的后臺(tái)是覆蓋了5000萬學(xué)術(shù)論文的數(shù)據(jù)庫,“ROST 反剽竊系統(tǒng)”則是以490 萬篇論文及覆蓋188 億個(gè)網(wǎng)頁數(shù)據(jù)為主。在中國(guó),數(shù)據(jù)資源庫還需要不斷完善,不過“ROST 反剽竊系統(tǒng)”要應(yīng)對(duì)的似乎不僅是技術(shù)升級(jí)的問題。
從 2008 年4 月起該軟件已在全國(guó)20 多家高校院系推廣和100 多家雜志社期刊社測(cè)試使用。一年多來,沈陽利用“ROST 反剽竊系統(tǒng)”開展了一系列反學(xué)術(shù)不端行為的檢測(cè)。該系統(tǒng)多次抽樣檢測(cè)表明,在一些大專院校內(nèi),學(xué)術(shù)抄襲現(xiàn)象嚴(yán)重,從老師到博士、碩士、本科生,抄襲程度逐步遞增。以一所部屬高校為例,783 篇論文中,涉嫌抄襲者過半,其中全文抄襲的論文有161篇,占總體的20.4%;段落剽竊的有256 篇,占33.2%。其中一個(gè)院系的30 篇博士論文中,有4篇學(xué)術(shù)不端的,絕大多數(shù)的文章存在標(biāo)注不規(guī)范的問題,沒有一篇論文完全符合規(guī)范。由此可見,想要真正端正學(xué)術(shù)行為,光靠?jī)x器檢測(cè)是不行的,還要從思想上根本轉(zhuǎn)變對(duì)抄襲行為的看法。不
過令沈陽高興的是,“ROST 反剽竊系統(tǒng)”發(fā)布以后已經(jīng)得到了社會(huì)的廣泛關(guān)注,他自己也會(huì)繼續(xù)深入研究反剽竊技術(shù)和制度設(shè)計(jì)。