2021年5月7日金曜日

文献紹介:Word Embeddings for Chemical Patent Natural Language Processing (Part 1)

題名:Word Embeddings for Chemical Patent Natural Language Processing

著者:Camilo Thorne, Saber Akhondi 

発表年:2020年10月

リンク先:https://arxiv.org/abs/2010.12912

 Abstract
我々はを既知の医学用単語埋め込み技術を背景として、化学特許における単語埋め込み技術の評価を行い、その結果は、医学用単語埋め込みより外因的にも、内因的にも優れていた。我々はまた、文脈化した埋め込み技術によって、相対的に小さなゴールドスタンダードテストを超えたこの領域において合理的な性能を持った予言可能なモデルを構築することができることを示した。

1.Introduction
化学産業は疑うことなく新しい化合物の発見に依存している。しかしながら、新しい化合物は最初に特許文献に現れ、その数か月とか数年後に科学論文に出版される。このようにしてほとんどの化学物質は特許においてのみただちに入手可能となる。新たな化学に関する特許申請書の数は劇的に増加しているので、現在、自然言語処理によって化学の特許申請書から自動的に情報を抽出することは重要である。

この努力において鍵となる道具は単語埋め込み技術である。埋め込み技術は固有表現抽出(NER)のような最新式のニューラルモデルにおいて単語や文章やテキストレベルの特徴を抽出するのに重要である。大規模なWord2Vecと文脈化された埋め込み技術は医療と製薬領域のために開発された。Mat2Vecのような分析化学のための小規模な埋め込み技術もまた提案されている。それらのような埋め込み技術は全て科学論文(PubMedコーパス)を用いて訓練されている。つい最近では、Zhaiらが化学の固有表現抽出の学習と適用に成功し、化学特許を学習したELMo埋め込み技術、いわゆるCheMU埋め込み技術の文脈化を行った。この論文では、我々は以前のものに対する化学特許の埋め込み技術の品質を評価に関する問題点を取り扱う。この種の比較においては2つの手法が通例である。1つは、予想における各単語埋め込みの効果(この論文では化学固有表現抽出)といった外省的評価であり、もう一つは分配表現の質を定量的に分析する際の内省的評価は化学用語を指定している。この目的のために、ある化学用語に埋め込まれている用語をうえから似ている順に、例えば、イブプロフェンであれば抗炎症性薬といったように、10個比較することが習慣的になされている。我々は化学特許の単語埋め込みが以前のものより外省的にも、内省的にも優れていることを示す。

0 件のコメント:

コメントを投稿