1. Introduction
BERTや他の先進的な事前学習言語モデルは自然言語理解において偉大な進歩をもたらした。その一方、一般的な評価基準の発展もまた、これらモデルの進歩を助けた。これらの基準テストは通常、NLUタスクの広い範囲にわたってモデルの性能を評価するために点数全体を使っている。GLUEやsuperGLUEといった英語に対する普遍的な言語理解評価に加えて、中国語のCLUE、フランス語のFLUE、インドネシア語のIndoNLUといった他の言語の基準も企画された。更に言語間の評価のためにXTRMEやXGLUEといった多言語のマルチタスク基準が提案されている。
NLUタスクに加えて、MASSや、BARTや、ProphetNETや、ERINE-GENといった自然言語生成のために設計された増加しつつある数の事前学習言語モデルが最近提案されている。しかしながら、言語生成における生成モデルは通常、一貫した、そして包括的な評価方法を提供できない異なったタスク、データセット、作詩法で評価されている。上記で述べたように一般的な評価方法はいくつかあるが、一般的な言語生成評価のために設計されたものは特にひとつとしてない。
このNLGにおけるギャップを埋めるために、GLGE基準というNLG生成能力を評価するための新しいマルチタスク基準を導入する。これは8言語の生成タスクを含み、テキスト要約、質問生成、質問回答そして対話機能を含んでいる。我々は既存の人気のあるデータセットを6つ、現実世界から選んだ新しいデータセットを2つ選んだ。更に多様な難易度に挑戦するためにタスク難易度に関して3つのNLG評価基準(GLGE-Easy, GLGE-Medium, GLGE-Hard)をつくるという単純だが、効果的な作戦を選んだ。
GLGEによって提案された挑戦をより良く理解するために、LSTM Seq2Seq、vanillaTransformerといった事前学習されていないモデルとBARTとProphetNetといった事前学習されたモデルを使って実験を行った。更に出力サンプルのn-gram多様性について分析を行った。実験結果によると事前学習モデルとそうでないモデルとの間には大きな成績ギャップが見られた。しかしながら、GLGE-hardタスクにおいては、事前学習モデルの成績については大きな改善の余地がある。
まとめると、この論文の成果には5つある。(1)4種の典型的なNLGタスクにおける8個の個別のデータセットから成る新しいマルチタスクのNLG評価基準、(2)異なる難易度における3つのNLG評価基準、(3)モデル評価と比較のための基準化された評価の韻律学と答案、(4)オープンソースの基準線と基準のための公にされたリーダーボード、(5)現在広く使われている事前学習なしモデルと事前学習モデルに対して詳細な分析を加えた徹底的な比較可能である研究。
2021年5月10日月曜日
文献紹介:GLGE: A New General Language Generation Evaluation Benchmark (part2)
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿