NIPS2016の論文採択の手続きの分析論文を読む

ランニング30分　英語できず

(1) NIPS2016の論文採択の手続きの分析論文を読む

NIPSには投稿したことが無いが、この採択システムに興味を持ち読んでみた。

NIPSの論文採択の問題点は、機械学習系の最大の学術会議となっていて論文投稿数や参加者が年々増加して追いつかないことである。NIPS2016では論文投稿数2425件で3242人も査読者を投入している。（ここには記述が無いが568件採択されている）

　まず１投稿当たりの査読者数と査読者１人当たりの査読数は以下となっている。

f:id:mabonki0725:20170907154357p:plain

この負担が大きいため以下について正当な審査が行われているかの分析と提言をしている。

・QS(Quality assurance) 審査の正当性を保障する観点

　査読人と投稿者が偏在していない指標を使って評価のブレを無くす

下記に示す様にボランティアと専門職との差少なく多くの査読人を入れ多数で評価する

・QA(Quality controll) 審査の正当性を評価できる観点

　スコアより品質レベルを通知すべき

　査読者と議論すれば評価が上がることが多く、これを知らない場合が多い

　ボランティアを使うのは多数の評価で公平になるが、専門職との議論を大事にする

QSについての分析のためこの論文では独自に査読人を２グループに集めて評点をしなおしている。

　グループは専門職・ボランティアおよびプロ・若手・学生の区分である。　

f:id:mabonki0725:20170907132958p:plain

　査読人によってスコアが大きく異なることは良く知られているが、分析の結果では下図の様に論文のスコアの分布が広く、採択と不採用がかなり重なっており公正でないことが分る

　ここでは投稿論文のスコアを以下別で行っている

　・Clearity（明白性）

　・Impact (衝撃度）

　・Novelty（新規性）

　・Quality（品質）

f:id:mabonki0725:20170907132406p:plain

　また査読人の専門職とボランティアにスコアに差が無く、熟達者・若手・学生にもスコアの差がないことも判明した。ただし査読したコメントの内容には差は出ている。

f:id:mabonki0725:20170907133501p:plain

　しかしスコアの分散から見た信頼度は僅かに専門職が勝っている。

f:id:mabonki0725:20170907134554p:plain

　当然この様な査読人に対しては投稿者は疑義や議論をしているので、議論後には下図の様に不採用は減り、採択が増える事態になっている。

f:id:mabonki0725:20170907153921p:plain

　また査読人の専門分野の偏在も大きな問題となっている。NIPS2015では殆どが強化学習の分野でした。

f:id:mabonki0725:20170907134228p:plain