NIPS2016の論文採択の手続きの分析論文を読む
ランニング30分 英語できず
(1) NIPS2016の論文採択の手続きの分析論文を読む
[1708.09794v1] Design and Analysis of the NIPS 2016 Review Process
NIPSには投稿したことが無いが、この採択システムに興味を持ち読んでみた。
NIPSの論文採択の問題点は、機械学習系の最大の学術会議となっていて論文投稿数や参加者が年々増加して追いつかないことである。NIPS2016では論文投稿数2425件で3242人も査読者を投入している。(ここには記述が無いが568件採択されている)
まず1投稿当たりの査読者数と査読者1人当たりの査読数は以下となっている。
この負担が大きいため以下について正当な審査が行われているかの分析と提言をしている。
・QS(Quality assurance) 審査の正当性を保障する観点
査読人と投稿者が偏在していない指標を使って評価のブレを無くす
下記に示す様にボランティアと専門職との差少なく多くの査読人を入れ多数で評価する
・QA(Quality controll) 審査の正当性を評価できる観点
スコアより品質レベルを通知すべき
査読者と議論すれば評価が上がることが多く、これを知らない場合が多い
ボランティアを使うのは多数の評価で公平になるが、専門職との議論を大事にする
QSについての分析のためこの論文では独自に査読人を2グループに集めて評点をしなおしている。
グループは専門職・ボランティアおよびプロ・若手・学生の区分である。
査読人によってスコアが大きく異なることは良く知られているが、分析の結果では下図の様に論文のスコアの分布が広く、採択と不採用がかなり重なっており公正でないことが分る
ここでは投稿論文のスコアを以下別で行っている
・Clearity(明白性)
・Impact (衝撃度)
・Novelty(新規性)
・Quality(品質)
また査読人の専門職とボランティアにスコアに差が無く、熟達者・若手・学生にもスコアの差がないことも判明した。ただし査読したコメントの内容には差は出ている。
しかしスコアの分散から見た信頼度は僅かに専門職が勝っている。
当然この様な査読人に対しては投稿者は疑義や議論をしているので、議論後には下図の様に不採用は減り、採択が増える事態になっている。
また査読人の専門分野の偏在も大きな問題となっている。NIPS2015では殆どが強化学習の分野でした。