2021年5月7日金曜日

文献紹介:Word Embeddings for Chemical Patent Natural Language Processing (Part 2)

 2.Experiments
データについて:今回の実験のために2つの知られた化学NER特許コーパス、SCAIコーパスとBiosemanticコーパスから少量のゴールドスタンダードを利用した。SCAIコーパスではUIPAC方によって命名法によって書かれた化学物質に焦点を当てている。加えて、確認テストに使用するため、Biosemanticコーパス(化学全体のうちかなりの部分をカバーしている)におけるIUPACによる注釈がある部分を試した。表1に示す。図1にしめすようにWord2Vecの単語埋め込みと3521語のテストセットの間に大きな語彙の重なりが見られた。

外省的評価:外省的評価であるNERに対して、パラメータを減らし、与えられた小さなコーパスの重複を避けるためにLSTM層の代わりにGRU(Gated recurrent unit)を用いたLampleモデルを単純にして利用した。このことは我々のしたいこと、(a)はめ込みによって合理的な性能が得られるかどうかの試験と(b)異なるはめ込みが異なった結果をもたらすかどうかのテストを行うには十分である。我々は化学に関する事前学習済みモデルと訓練可能な文字レベルのGRUエンコーダを用いて文字のエンコードを行った。図2を見てください。50エポック毎のアーリーストッピング、0.25のドロップアウトの80次元の双方向GRU文字エンコーディング、0.5ドロップアウトの300次元の双方向エンコーディングGRUトークンエンコーダーを用いてモデルの訓練を行った。バッチサイズは16である。訓練アルゴリズム同様に、0.01の学習もしくは減衰率とL2-規則化を伴って、Adamを利用した。我々はAllenNLPを主な実装として利用した。モデルはテスラT4GPUと16GBのGPURAMを用いて計算された。





0 件のコメント:

コメントを投稿