時(shí)間:2018-07-31 編輯整理:早檢測網(wǎng) 來源:早檢測網(wǎng)
Ian Goodfellow 今天發(fā)推表示,他懷疑正是同行評議機(jī)制導(dǎo)致了如今AI會(huì)議論文下降,評審人質(zhì)量參差不齊是主要原因,浮夸的論文被選中,真正的好論文反而被埋沒。作為科學(xué)界一貫以來的雙盲同行評議機(jī)制,正在遭遇一場前所未有的災(zāi)難。
如果你讓一位科學(xué)家只選一個(gè)科學(xué)界引以為傲的標(biāo)準(zhǔn),估計(jì)不少人都會(huì)說“同行評議”。
同行評議是大多數(shù)國際期刊和會(huì)議對投稿論文進(jìn)行篩選的其中一個(gè)過程。很多時(shí)候,期刊編輯或?qū)W術(shù)會(huì)議會(huì)邀請某一特定研究領(lǐng)域的專家,對文章進(jìn)行評價(jià),幫助決定投稿論文是否值得發(fā)表。
更廣泛地說,同行評議是專家學(xué)者對本專業(yè)領(lǐng)域的學(xué)術(shù)成果的評價(jià),包括著述的發(fā)表出版、評論、評獎(jiǎng)、評職稱、論文引用、論文鑒定等等。
同行評議是科學(xué)界能夠“自我糾正”“自我完善”的光榮傳統(tǒng):以同行評議為核心的科學(xué)評價(jià)體系旨在清除不同形式的欺騙、實(shí)驗(yàn)誤差或研究者的失誤,防止和發(fā)現(xiàn)自欺行為和偏見。
但是,今天谷歌研究員、GAN的發(fā)明人 Ian Goodfellow 卻發(fā)布一條推文:他懷疑,實(shí)際上正是同行評議造成了如今機(jī)器學(xué)習(xí)里的一些怪現(xiàn)象!
?
尤其是機(jī)器學(xué)習(xí)和AI會(huì)議論文的一些同行評議結(jié)果,不但沒有保持科學(xué)界的優(yōu)良傳統(tǒng),反而導(dǎo)致一些華而不實(shí)的論文被發(fā)表,而真知灼見則往往因?yàn)樵u審人自身水平低、沒看懂而拒稿遭到埋沒。
現(xiàn)在的頂會(huì)評審,真是出了大問題。
Goodfellow:同行評議才是現(xiàn)今AI會(huì)議論文水平下降的元兇!
Goodfellow在推文中表示,作為頻繁出任會(huì)議領(lǐng)域主席并且管理一支小型科研團(tuán)隊(duì)的研究者,他經(jīng)常能看到很多人(包括他自己團(tuán)隊(duì)在內(nèi))工作的評審意見。
?
對于實(shí)證研究來說,最多的(拒稿)意見是沒有“理論”,但評審人并沒有針對某個(gè)特定問題去要理論,而是將其當(dāng)做一種輕松的拒稿理由——Goodfellow 這樣形容,“他們掃了一遍論文,沒看到炫酷的公式”,好,拒掉吧,原因?寫“缺乏理論”就好。
而投稿人為了應(yīng)對這樣的評審,最簡單的方法之一,就是在論文中加入許多無用的數(shù)學(xué)推理和公式。評審人一般不會(huì)認(rèn)為這些公式?jīng)]用,相反,這樣做還通過他們心目中“我掃了一遍,看到了炫酷的公式或者不明覺厲的理論名稱”這個(gè)測試標(biāo)準(zhǔn)。
類似地,Goodfellow 指出,對于那些提出一種新方法取得更好性能的論文,評審人往往讀過一篇,然后拒稿,理由是論文沒有闡釋為什么這種方法表現(xiàn)更好。而當(dāng)論文有解釋的內(nèi)容時(shí),無論說得多不靠譜,甚至根本不被證據(jù)支持,心軟一些的評審人也會(huì)讓其通過。
此外,評審人看見通過實(shí)證觀察去理解一個(gè)系統(tǒng)工作原理的論文時(shí),往往反饋“沒有新算法”。這時(shí)候怎么辦?扔一個(gè)新方法進(jìn)去就行了唄,管它相不相關(guān)呢。
評審人一般不怎么喜歡純科學(xué)論文(science papers),那理論研究怎么投稿?好辦,象征性地加點(diǎn)新的工程方法進(jìn)去就行啦。
Goodfellow 指出,也有個(gè)別科學(xué)論文全憑實(shí)力得到高分,但通常也是被拒稿多次以后才有幸遇到了真正能看懂的評審人。
總之,Goodfellow 說:“機(jī)器學(xué)習(xí)如今的怪現(xiàn)象里,有一些可能不是同行評議造成的,但評審人要求增加數(shù)學(xué)(公式)、增加虛假的解釋和虛假的原創(chuàng)性,我已經(jīng)司空見慣了。”
?
Goodfellow 指出,同行評議作為一種機(jī)制是經(jīng)過時(shí)間檢驗(yàn)的科學(xué)評價(jià)標(biāo)準(zhǔn),但具體實(shí)施仍然要謹(jǐn)慎。
NIPS 2018初審結(jié)果出爐,哀聲遍野:評審人不專業(yè)!
Goodfellow 提到的“機(jī)器學(xué)習(xí)怪現(xiàn)象”,實(shí)際上就是 ICML 2018 的一場辯論。CMU 助理教授 Zachary C.Lipton 攜手斯坦福研究員 Jacob Steinhardt,撰寫了一篇《機(jī)器學(xué)習(xí)令人擔(dān)憂的趨勢》(Troubling Trends in Machine Learning Scholarship),引發(fā)了熱烈的討論。
Lipton 和 Steinhardt 在文中指出,如今的機(jī)器學(xué)習(xí)論文存在幾大問題:
1.無法區(qū)分客觀闡述和推測;
2.無法確定取得更好結(jié)果的原因,例如,當(dāng)實(shí)際上是因?yàn)閷Τ瑓?shù)微調(diào)而獲得好效果的時(shí)候,卻強(qiáng)調(diào)不必要的修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
3.數(shù)學(xué)公式堆積:使用令人混淆的數(shù)學(xué)術(shù)語而不加以澄清,例如混淆技術(shù)與非技術(shù)概念;
4.語言誤用,例如使用帶有口語的藝術(shù)術(shù)語,或者過多使用既定的技術(shù)術(shù)語。
如此看來,也難怪 Goodfellow 會(huì)懷疑,正是現(xiàn)今的同行評議,造成了AI和機(jī)器學(xué)習(xí)會(huì)議論文水平下降!
看到 Goodfellow 的推文后,Lipton 也表示贊同。他回復(fù)推文說,確實(shí),如今同行評議水平下降,以及由此導(dǎo)致投稿人心態(tài)扭曲,也是造成機(jī)器學(xué)習(xí)怪現(xiàn)象的原因之一。
?
實(shí)際上,前幾天正好 NIPS 2018 的初審結(jié)果公布,社交網(wǎng)絡(luò)上哀鴻遍野。對評審結(jié)果的抱怨,很大程度上就是 Goodfellow 指出的那些:沒有數(shù)學(xué)公式、缺乏結(jié)果解釋……
?
其中,最嚴(yán)重的問題,或許是評審人本身不專業(yè),根本沒有看懂論文!
中科院計(jì)算所的一位博士生導(dǎo)師告訴新智元,他們組這次提交的一篇 NIPS 2018 論文,反饋意見還不算太差,6、6、8(6=marginal accept,8=accept)。
其中,認(rèn)為該接受的那位評審,確實(shí)是看懂了論文,提出了很多有針對性的具體問題和意見。而其他兩位認(rèn)為拒也可收也可的評審,只給出了非常簡略的反饋,諷刺的是,其中一位的理由恰好就是“沒有解釋結(jié)果原因”。
這位博士生導(dǎo)師說:“很明顯,那兩名評審要么就是沒有細(xì)看論文,要么就是根本沒看懂。”
“我告訴學(xué)生,好好rebuttal,還是有希望的。”
論文數(shù)量激增,ICML、NIPS等頂會(huì)評審陷入困境
NIPS 2017,微軟亞洲研究院劉鐵巖組中了 4 篇論文。新智元在采訪現(xiàn)任微軟亞洲研究院副院長的劉鐵巖博士時(shí),后者也曾提到,近年來機(jī)器學(xué)習(xí)和 AI 會(huì)議論文數(shù)量激增,是好事,也是壞事。
與 Goodfellow 一樣,同樣是機(jī)器學(xué)習(xí)頂會(huì)領(lǐng)域主席??偷膭㈣F巖博士說,由于很難在短時(shí)間內(nèi)找到足夠多的嚴(yán)謹(jǐn)合格的評審人,權(quán)威評審人/領(lǐng)域主席的時(shí)間和精力有限,也只能看那么多篇論文,剩下的就只能找稍微次一些的評審,這些評審人很可能因?yàn)樽约旱乃接邢蓿瑹o法覺察優(yōu)秀論文的創(chuàng)新和意義而直接拒稿。
另一方面,這些評審?fù)鶗?huì)被一些包裝得很華麗、結(jié)果很漂亮,但對領(lǐng)域發(fā)展并沒有那么大作用的論文所吸引,因此現(xiàn)在 NIPS 整體論文水平參差不齊。
但是,論文整體質(zhì)量下降也并非單純由于近年來論文數(shù)量激增、評審人質(zhì)量下降造成。
NIPS 2014 做了一個(gè)實(shí)驗(yàn),將當(dāng)年投稿的10%(共166篇論文)同時(shí)交給兩個(gè)不同的評審委員會(huì)評審,每個(gè)委員會(huì)由大會(huì)組委會(huì)的一半成員構(gòu)成。評審結(jié)果令人吃驚:兩個(gè)評審委員會(huì)對其中 42 篇論文(約25%)的評審意見相左。由于兩個(gè)委員會(huì)都把論文錄用率控制在 22.5% 左右,委員會(huì)一錄用的 21 篇論文會(huì)被組委會(huì)二拒稿,而組委會(huì)二錄用的 22 篇論文被組委會(huì)一拒稿!
?
也就是說,被其中一個(gè)評審委員會(huì)錄用的論文,其中大約 57%會(huì)被另一個(gè)評審委員會(huì)拒稿。這樣,從理論上講,如果重新審稿,NIPS2014年錄用的一半以上的文章將被拒稿!
上述實(shí)驗(yàn)表明,當(dāng)錄用率很低時(shí),質(zhì)量居中的論文錄用的隨機(jī)性將大大提高。比如在上述例子中,約7.5%肯定被錄用,50%以上的文章肯定被拒稿,其余中間 47% 左右的論文是否被錄用則有很強(qiáng)的隨機(jī)性。
相對而言,NIPS 2014 的投稿遠(yuǎn)沒有 NIPS 2018 多,因此上述評審人問題至少不會(huì)那么嚴(yán)重。
論文錄取這件事,本身就有很強(qiáng)的隨機(jī)性。
成也Arxiv,敗也Arxiv:AI會(huì)議論文未來該如何評審?
目前,期刊和會(huì)議會(huì)采取不同的同行評議方式,有單盲、雙盲、公開同行評議和發(fā)表后再進(jìn)行同行評議等方式。不論采取哪種模式,同行評議的主要目的都是為了驗(yàn)證研究結(jié)果,保證所發(fā)表的工作具有全球性的影響。
ACL 已經(jīng)采用了雙盲評審機(jī)制,而且規(guī)定研究人員不能在一定期限內(nèi)將論文上傳到 arXiv,很大一個(gè)原因便是以 arXiv 為代表的預(yù)印版論文庫干擾了同行評議,尤其是雙盲評議。
CVPR 2019 程序主席、微軟研究院首席研究員華剛博士此前在接受新智元專訪時(shí)表示,ArXiv 雖然是一個(gè)非同行評議論文庫,但其活躍度讓如今大多數(shù)研究人員都把它作為一個(gè)定期跟蹤的信息源。
但是,身為多個(gè)學(xué)術(shù)會(huì)議的主席以及多本學(xué)術(shù)期刊的編委,華剛博士在肯定 arXiv 加速學(xué)術(shù)交流的同時(shí),一針見血地指出,“arXiv讓學(xué)術(shù)會(huì)議的雙盲評審形同虛設(shè)”,arXiv上的論文質(zhì)量也是“魚龍混雜”。
但如今,NIPS的雙盲評審也暴露出種種問題。有人呼吁,強(qiáng)烈建議將“學(xué)生評審”加入到審稿人中來——與其邀請不合格的博士生甚至本科生,還不如明確地加入“學(xué)生評審”,讓學(xué)生評審人先閱讀論文,然后教授等高級評審人評論作為輔助信息,提供給最終評審,這在很大程度上可以擺脫目前審稿人質(zhì)量參差不齊的災(zāi)難。
?
?
僅僅舉辦 5 年便被譽(yù)為“深度學(xué)習(xí)頂會(huì)”的ICLR,率先采用 Open Review 論文評審機(jī)制,評審和 rebuttal 全部公開,或許也是一種解決之道。
你認(rèn)為呢?
文章來源:網(wǎng)絡(luò)