-人間の査読がコンピュータが作る科学に追いつくのに苦労し、aiXivはボットの力を借りている。-
ほとんどの科学出版物では、人工知能(AI)が共著した論文は歓迎されません。しかし、aiXivと呼ばれる新しいオープンプラットフォームでは、そのような論文は歓迎されています。このプラットフォームはAIに全面的に注力しており、AIと人間の両方が執筆した論文を受け入れ、組み込みのAIレビュアーによる基本的な品質審査を行い、チャットボットからのフィードバックに基づいて著者に修正を指示します。「AIが生成した知識を特別扱いすべきではありません」と、aiXivの開発者の一人で、マンチェスター大学でAIとビジネスを専門とする博士課程の学生であるGuowei Huang氏は述べています。「私たちが気にすべきは、誰が作成したかではなく、品質だけです。」
このプラットフォームはまだ初期段階にあり、11月中旬のアップデート後も、掲載されている論文と初期段階の提案は数十件にとどまっている。しかし、多くの研究者は、AIの合法的利用と禁止された利用の両方によって引き起こされた論文の急増に追われてきた、過負荷状態にある人間による査読システムにとって、このプラットフォームは待望の救済策となるだろうと述べている。
「自動化科学コミュニティが自らの研究をどう評価するかについて責任を持つことは極めて重要だ」とオレゴン州立大学のコンピューターサイエンスの名誉教授、トーマス・ディートリッヒ氏は言う。
しかし、ディートリッヒ氏らは、aiXivをはじめとするAIフレンドリーな実験は、不正研究や表面的な査読といった科学における長年の課題に必然的に対処しなければならないと警告している。「これらのモデルは、科学研究の実態をますます良く模倣し続けています。しかし、必ずしも科学者の能力が上がっているわけではありません」と彼は言う。「研究が真実であることを、どのようにして保証するのでしょうか?」
現在、多くの分野で論文数を増加させているAIの扱いについて、科学出版社の間で合意がほとんどありません。多くのジャーナル( Scienceを含む)は依然としてAI生成論文を全面的に禁止しています。一方、AI支援による論文執筆を許可しつつも、開示を求めるジャーナルもあります。
プレプリントサーバーもその影響を被っている。疑わしい論文の増加を理由に、arXivは10月、査読済みの論文を除き、コンピューターサイエンスに関するレビュー論文とポジションペーパーの掲載を停止すると発表した。「AIによって自動作成された文書は、arXivのモデルを真に損なうものです」と、同サーバーのコンピューターサイエンス部門の議長を務めるディートリッヒ氏は述べている。
ツール自体に目を向ける研究者もいる。AIの助けを借りていると思われる論文の急増に直面し、bioRxivとmedRxivを運営する非営利団体openRxivは先月、プレプリントへのフィードバックを迅速に生成するためのAIレビューツールを追加すると発表した。
しかし、これらのサーバーは、ほとんどの会議やジャーナルと同様に、AIシステムを著者として挙げることを依然として禁じています。これは、研究者がAIを明示的に使用せずに使用することを意図せずに促すことになります。黄氏は、この透明性の欠如を「全く容認できない」と述べています。
これが、彼がトロント大学(UToronto)、オックスフォード大学、清華大学などの機関の協力者と協力し、aiXivを設立した理由の一つです。シンガポールに拠点を置くBohriumや中国に拠点を置くDP Technologyといったテクノロジー企業とも提携しているこのプラットフォームは、「AI時代のスケーラブルな科学成果のための、構造化された査読と反復的な出版インフラ」を標榜しています。
論文が提出されると、5つの「エージェント」(自律的にタスクを完了するように調整された大規模言語モデル)が、その新規性、技術的健全性、潜在的影響を評価する。このシステムには不正行為に対する防御機能が組み込まれている。たとえば、著者が好意的なレビューを引き出そうと原稿に隠れた指示をこっそり入れようとした場合、それを検出できる。5つのエージェントのうち3つが受理を推奨した場合、その論文は掲載される。エージェントのフィードバックに基づいて、著者は修正し、次のレビューサイクルに再提出できる。8月のプレプリントで著者らは、予備テストでは、これらの反復ループによりAI生成論文の品質が向上することが示唆されたと主張している。Huang氏によると、AiXivのインフラストラクチャは数千件の投稿をサポートでき、従来のピアレビューでは数か月から数年かかるのに対し、通常は1~2分でレビューを生成できるという。
これまでのところ、このサイトには、型破りな物理学理論から「温熱快適性テスト」を用いてAIの知覚能力を評価する研究まで、様々な論文が投稿されています。トロント大学のAI研究者であるPengsong Zhang氏によると、このサイトは現在正式に論文を「受け付けている」わけではないとのことです。投稿はすべて、プラットフォームがAI査読者の改良を試行する中で掲載されているとのことです。
他の場所で行われた初期の実験は、この問題がいかに困難であるかを示唆している。10月に開催されたAgents4Scienceは、AIを第一著者と査読者の両方に起用した初めての会議であり、結果はまちまちだった。査読者システムは数値の矛盾や参考文献の不一致をうまく検出できたものの、論文の新規性や影響力について過度に楽観的な見解を示すことが多かった。また、Agents4Scienceの主催者でスタンフォード大学の生物医学データサイエンティスト兼AI研究者であるジェームズ・ゾウ氏は、厳密に組織化された会議と比較して、プレプリントサーバーは「はるかに多くの異質性と不備をもたらし、それを検出するのがより困難になる可能性がある」と述べている。
aiXivがこれらの落とし穴を回避できるかどうか、人々は注視するだろう。「aiXivがゴミ捨て場にならないよう、彼らは警戒を怠ってはならない」と、コペンハーゲン大学の生命倫理学者セバスチャン・ポルスダム・マン氏は付け加える。「もしこのプラットフォームが、科学的厳密さよりも質の低い大量の研究と結び付けられるようになれば、AI主導の研究分野全体の正当性が損なわれ、優れたAI研究も台無しになってしまうだろう。」
aiXivの創設者たちは依然として楽観的な見方を崩していない。張氏によると、チームは10月に開催された大規模なロボット工学会議の論文30本について、aiXivのエージェントによるレビューと人間によるレビューを比較した未発表のデータを収集したという。張氏によると、AIレビュアーによる評価は人間のスコアとほぼ一致しており、場合によってはより詳細なフィードバックを提供したという。
少なくとも、「AIレビューやAI科学に関して提起された多くの問題は、現在のシステムにも当てはまる」とポルスダム・マン氏は言う。「AIはただ問題を提起しているだけだ」。カーネギーメロン大学のコンピューターサイエンティスト、ニハール・シャー氏もこれに同意し、aiXivの登場は「より適切に出所を追跡し、人間(またはAI)が実際に実験を行ったことを検証可能な方法で証明する」方法についての議論を加速させているだけだと述べている。
シャー氏は「AIが膨大な研究を行うことはほぼ避けられない」と覚悟しつつも、aiXivが提起する疑問は消えることはないと言う。「このプラットフォームが成功するかどうかはさておき、彼らはすでに素晴らしい議論を始めています。これはすでに非常に称賛に値します。」
参考リンク:A new preprint server welcomes papers written and reviewed by AI
0 件のコメント:
コメントを投稿