国产成人综合亚洲无码中字 ,日韩亚洲国产日本,久久国产2021

歡迎來到早檢測論文查重網(wǎng)
官方微信
官方在線客服
- 咨詢檢測客服

首頁學(xué)術(shù)資訊Goodfellow 發(fā)推炮轟同行評議：雙盲評審導(dǎo)致AI頂會(huì)論文變水

Goodfellow 發(fā)推炮轟同行評議：雙盲評審導(dǎo)致AI頂會(huì)論文變水

時(shí)間：2018-07-31 編輯整理：早檢測網(wǎng) 來源：早檢測網(wǎng)

Ian Goodfellow 今天發(fā)推表示，他懷疑正是同行評議機(jī)制導(dǎo)致了如今AI會(huì)議論文下降，評審人質(zhì)量參差不齊是主要原因，浮夸的論文被選中，真正的好論文反而被埋沒。作為科學(xué)界一貫以來的雙盲同行評議機(jī)制，正在遭遇一場前所未有的災(zāi)難。

如果你讓一位科學(xué)家只選一個(gè)科學(xué)界引以為傲的標(biāo)準(zhǔn)，估計(jì)不少人都會(huì)說“同行評議”。

同行評議是大多數(shù)國際期刊和會(huì)議對投稿論文進(jìn)行篩選的其中一個(gè)過程。很多時(shí)候，期刊編輯或?qū)W術(shù)會(huì)議會(huì)邀請某一特定研究領(lǐng)域的專家，對文章進(jìn)行評價(jià)，幫助決定投稿論文是否值得發(fā)表。

更廣泛地說，同行評議是專家學(xué)者對本專業(yè)領(lǐng)域的學(xué)術(shù)成果的評價(jià)，包括著述的發(fā)表出版、評論、評獎(jiǎng)、評職稱、論文引用、論文鑒定等等。

同行評議是科學(xué)界能夠“自我糾正”“自我完善”的光榮傳統(tǒng)：以同行評議為核心的科學(xué)評價(jià)體系旨在清除不同形式的欺騙、實(shí)驗(yàn)誤差或研究者的失誤，防止和發(fā)現(xiàn)自欺行為和偏見。

但是，今天谷歌研究員、GAN的發(fā)明人 Ian Goodfellow 卻發(fā)布一條推文：他懷疑，實(shí)際上正是同行評議造成了如今機(jī)器學(xué)習(xí)里的一些怪現(xiàn)象！

?

尤其是機(jī)器學(xué)習(xí)和AI會(huì)議論文的一些同行評議結(jié)果，不但沒有保持科學(xué)界的優(yōu)良傳統(tǒng)，反而導(dǎo)致一些華而不實(shí)的論文被發(fā)表，而真知灼見則往往因?yàn)樵u審人自身水平低、沒看懂而拒稿遭到埋沒。

現(xiàn)在的頂會(huì)評審，真是出了大問題。

Goodfellow：同行評議才是現(xiàn)今AI會(huì)議論文水平下降的元兇！

Goodfellow在推文中表示，作為頻繁出任會(huì)議領(lǐng)域主席并且管理一支小型科研團(tuán)隊(duì)的研究者，他經(jīng)常能看到很多人（包括他自己團(tuán)隊(duì)在內(nèi)）工作的評審意見。

?

對于實(shí)證研究來說，最多的（拒稿）意見是沒有“理論”，但評審人并沒有針對某個(gè)特定問題去要理論，而是將其當(dāng)做一種輕松的拒稿理由——Goodfellow 這樣形容，“他們掃了一遍論文，沒看到炫酷的公式”，好，拒掉吧，原因？寫“缺乏理論”就好。

而投稿人為了應(yīng)對這樣的評審，最簡單的方法之一，就是在論文中加入許多無用的數(shù)學(xué)推理和公式。評審人一般不會(huì)認(rèn)為這些公式?jīng)]用，相反，這樣做還通過他們心目中“我掃了一遍，看到了炫酷的公式或者不明覺厲的理論名稱”這個(gè)測試標(biāo)準(zhǔn)。

類似地，Goodfellow 指出，對于那些提出一種新方法取得更好性能的論文，評審人往往讀過一篇，然后拒稿，理由是論文沒有闡釋為什么這種方法表現(xiàn)更好。而當(dāng)論文有解釋的內(nèi)容時(shí)，無論說得多不靠譜，甚至根本不被證據(jù)支持，心軟一些的評審人也會(huì)讓其通過。

此外，評審人看見通過實(shí)證觀察去理解一個(gè)系統(tǒng)工作原理的論文時(shí)，往往反饋“沒有新算法”。這時(shí)候怎么辦？扔一個(gè)新方法進(jìn)去就行了唄，管它相不相關(guān)呢。

評審人一般不怎么喜歡純科學(xué)論文（science papers），那理論研究怎么投稿？好辦，象征性地加點(diǎn)新的工程方法進(jìn)去就行啦。

Goodfellow 指出，也有個(gè)別科學(xué)論文全憑實(shí)力得到高分，但通常也是被拒稿多次以后才有幸遇到了真正能看懂的評審人。

總之，Goodfellow 說：“機(jī)器學(xué)習(xí)如今的怪現(xiàn)象里，有一些可能不是同行評議造成的，但評審人要求增加數(shù)學(xué)（公式）、增加虛假的解釋和虛假的原創(chuàng)性，我已經(jīng)司空見慣了。”

?

Goodfellow 指出，同行評議作為一種機(jī)制是經(jīng)過時(shí)間檢驗(yàn)的科學(xué)評價(jià)標(biāo)準(zhǔn)，但具體實(shí)施仍然要謹(jǐn)慎。

NIPS 2018初審結(jié)果出爐，哀聲遍野：評審人不專業(yè)！

Goodfellow 提到的“機(jī)器學(xué)習(xí)怪現(xiàn)象”，實(shí)際上就是 ICML 2018 的一場辯論。CMU 助理教授 Zachary C.Lipton 攜手斯坦福研究員 Jacob Steinhardt，撰寫了一篇《機(jī)器學(xué)習(xí)令人擔(dān)憂的趨勢》（Troubling Trends in Machine Learning Scholarship），引發(fā)了熱烈的討論。

Lipton 和 Steinhardt 在文中指出，如今的機(jī)器學(xué)習(xí)論文存在幾大問題：

1.無法區(qū)分客觀闡述和推測；

2.無法確定取得更好結(jié)果的原因，例如，當(dāng)實(shí)際上是因?yàn)閷Τ瑓?shù)微調(diào)而獲得好效果的時(shí)候，卻強(qiáng)調(diào)不必要的修改神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；

3.數(shù)學(xué)公式堆積：使用令人混淆的數(shù)學(xué)術(shù)語而不加以澄清，例如混淆技術(shù)與非技術(shù)概念；

4.語言誤用，例如使用帶有口語的藝術(shù)術(shù)語，或者過多使用既定的技術(shù)術(shù)語。

如此看來，也難怪 Goodfellow 會(huì)懷疑，正是現(xiàn)今的同行評議，造成了AI和機(jī)器學(xué)習(xí)會(huì)議論文水平下降！

看到 Goodfellow 的推文后，Lipton 也表示贊同。他回復(fù)推文說，確實(shí)，如今同行評議水平下降，以及由此導(dǎo)致投稿人心態(tài)扭曲，也是造成機(jī)器學(xué)習(xí)怪現(xiàn)象的原因之一。

?

實(shí)際上，前幾天正好 NIPS 2018 的初審結(jié)果公布，社交網(wǎng)絡(luò)上哀鴻遍野。對評審結(jié)果的抱怨，很大程度上就是 Goodfellow 指出的那些：沒有數(shù)學(xué)公式、缺乏結(jié)果解釋……

?

其中，最嚴(yán)重的問題，或許是評審人本身不專業(yè)，根本沒有看懂論文！

中科院計(jì)算所的一位博士生導(dǎo)師告訴新智元，他們組這次提交的一篇 NIPS 2018 論文，反饋意見還不算太差，6、6、8（6=marginal accept，8=accept）。

其中，認(rèn)為該接受的那位評審，確實(shí)是看懂了論文，提出了很多有針對性的具體問題和意見。而其他兩位認(rèn)為拒也可收也可的評審，只給出了非常簡略的反饋，諷刺的是，其中一位的理由恰好就是“沒有解釋結(jié)果原因”。

這位博士生導(dǎo)師說：“很明顯，那兩名評審要么就是沒有細(xì)看論文，要么就是根本沒看懂。”

“我告訴學(xué)生，好好rebuttal，還是有希望的。”

論文數(shù)量激增，ICML、NIPS等頂會(huì)評審陷入困境

NIPS 2017，微軟亞洲研究院劉鐵巖組中了 4 篇論文。新智元在采訪現(xiàn)任微軟亞洲研究院副院長的劉鐵巖博士時(shí)，后者也曾提到，近年來機(jī)器學(xué)習(xí)和 AI 會(huì)議論文數(shù)量激增，是好事，也是壞事。

與 Goodfellow 一樣，同樣是機(jī)器學(xué)習(xí)頂會(huì)領(lǐng)域主席?？偷膭㈣F巖博士說，由于很難在短時(shí)間內(nèi)找到足夠多的嚴(yán)謹(jǐn)合格的評審人，權(quán)威評審人/領(lǐng)域主席的時(shí)間和精力有限，也只能看那么多篇論文，剩下的就只能找稍微次一些的評審，這些評審人很可能因?yàn)樽约旱乃接邢蓿瑹o法覺察優(yōu)秀論文的創(chuàng)新和意義而直接拒稿。

另一方面，這些評審?fù)鶗?huì)被一些包裝得很華麗、結(jié)果很漂亮，但對領(lǐng)域發(fā)展并沒有那么大作用的論文所吸引，因此現(xiàn)在 NIPS 整體論文水平參差不齊。

但是，論文整體質(zhì)量下降也并非單純由于近年來論文數(shù)量激增、評審人質(zhì)量下降造成。

NIPS 2014 做了一個(gè)實(shí)驗(yàn)，將當(dāng)年投稿的10%（共166篇論文）同時(shí)交給兩個(gè)不同的評審委員會(huì)評審，每個(gè)委員會(huì)由大會(huì)組委會(huì)的一半成員構(gòu)成。評審結(jié)果令人吃驚：兩個(gè)評審委員會(huì)對其中 42 篇論文（約25%）的評審意見相左。由于兩個(gè)委員會(huì)都把論文錄用率控制在 22.5% 左右，委員會(huì)一錄用的 21 篇論文會(huì)被組委會(huì)二拒稿，而組委會(huì)二錄用的 22 篇論文被組委會(huì)一拒稿！

?

也就是說，被其中一個(gè)評審委員會(huì)錄用的論文，其中大約 57%會(huì)被另一個(gè)評審委員會(huì)拒稿。這樣，從理論上講，如果重新審稿，NIPS2014年錄用的一半以上的文章將被拒稿！

上述實(shí)驗(yàn)表明，當(dāng)錄用率很低時(shí)，質(zhì)量居中的論文錄用的隨機(jī)性將大大提高。比如在上述例子中，約7.5%肯定被錄用，50%以上的文章肯定被拒稿，其余中間 47% 左右的論文是否被錄用則有很強(qiáng)的隨機(jī)性。

相對而言，NIPS 2014 的投稿遠(yuǎn)沒有 NIPS 2018 多，因此上述評審人問題至少不會(huì)那么嚴(yán)重。

論文錄取這件事，本身就有很強(qiáng)的隨機(jī)性。

成也Arxiv，敗也Arxiv：AI會(huì)議論文未來該如何評審？

目前，期刊和會(huì)議會(huì)采取不同的同行評議方式，有單盲、雙盲、公開同行評議和發(fā)表后再進(jìn)行同行評議等方式。不論采取哪種模式，同行評議的主要目的都是為了驗(yàn)證研究結(jié)果，保證所發(fā)表的工作具有全球性的影響。

ACL 已經(jīng)采用了雙盲評審機(jī)制，而且規(guī)定研究人員不能在一定期限內(nèi)將論文上傳到 arXiv，很大一個(gè)原因便是以 arXiv 為代表的預(yù)印版論文庫干擾了同行評議，尤其是雙盲評議。

CVPR 2019 程序主席、微軟研究院首席研究員華剛博士此前在接受新智元專訪時(shí)表示，ArXiv 雖然是一個(gè)非同行評議論文庫，但其活躍度讓如今大多數(shù)研究人員都把它作為一個(gè)定期跟蹤的信息源。

但是，身為多個(gè)學(xué)術(shù)會(huì)議的主席以及多本學(xué)術(shù)期刊的編委，華剛博士在肯定 arXiv 加速學(xué)術(shù)交流的同時(shí)，一針見血地指出，“arXiv讓學(xué)術(shù)會(huì)議的雙盲評審形同虛設(shè)”，arXiv上的論文質(zhì)量也是“魚龍混雜”。

但如今，NIPS的雙盲評審也暴露出種種問題。有人呼吁，強(qiáng)烈建議將“學(xué)生評審”加入到審稿人中來——與其邀請不合格的博士生甚至本科生，還不如明確地加入“學(xué)生評審”，讓學(xué)生評審人先閱讀論文，然后教授等高級評審人評論作為輔助信息，提供給最終評審，這在很大程度上可以擺脫目前審稿人質(zhì)量參差不齊的災(zāi)難。

?

僅僅舉辦 5 年便被譽(yù)為“深度學(xué)習(xí)頂會(huì)”的ICLR，率先采用 Open Review 論文評審機(jī)制，評審和 rebuttal 全部公開，或許也是一種解決之道。

你認(rèn)為呢？

文章來源：網(wǎng)絡(luò)

學(xué)術(shù)新聞

上一篇：中南科學(xué)技術(shù)大學(xué)教師在管理學(xué)國際頂級學(xué)術(shù)期刊發(fā)表論文

下一篇：教育觀察|部署優(yōu)化教育經(jīng)費(fèi)使用結(jié)構(gòu)和落實(shí)義務(wù)教育教師工資待遇

相關(guān)資訊

一区二区91,久久伊人热99,亚洲AV成人一区二区三区观看在线飞飞影视,国产高清国际精品福利色噜噜

早檢測網(wǎng)-安全快捷的論文查重網(wǎng)站-8年實(shí)力經(jīng)營

Goodfellow 發(fā)推炮轟同行評議：雙盲評審導(dǎo)致AI頂會(huì)論文變水