2021年5月7日金曜日

文献紹介:Word Embeddings for Chemical Patent Natural Language Processing (Part 3)

 表3に示すように、大規模なPubMed Word2Vecによる埋め込みは基準モデルであるMat2VecよりもわずかばかりF1値が増加している。これら2つとも製薬目的のWord2Vec埋め込みには大きく打ち負かされている。特許目的の化学Word2Vecを用いるとWord2Vec埋め込みの中で最大のF1値を叩きだした。もっとも良い値が得られたのはELMoを利用したときで、それはWord2Vecよりも更に大きな値を叩きだし、興味深いことにF1値は72.41%に達した。これもまた興味深いことであるが、PubMed ELMoについても十分な専門知識を持ち、F1値は70.15%に及んだ。

内省的評価:量的な、もしくは内省的評価について、我々は比較可能な埋め込みを行うために次のような戦略を取った。我々はWord2Vecはめ込みの語彙をテストコーパスの語彙に制限した(ストップとファンクションキーワードを遮断した)。これら制限されたWord2Vec埋め込みをELMo埋め込みと比較するために、我々はテストコーパスの内容語ごとにELMo埋め込みを計算し、そして、アドホックの単純なコーパスレベルのWord2Vec埋め込みを引き出すための埋め込み全てについて平均した。そのような方法は潜在的に文脈化された情報を捨て去る一方で、文脈化された単語埋め込みが似たような単語埋め込みを単語に割り当て、それらの単語がその文中で似たような文法や意味的な役割を果たすと仮定すれば、この単語埋め込みは統語論と意味論における言葉の型を未だに保全する。この単語埋め込みの次元は特異値分解SVDによって減らされ、200,420,1024の次元で標準化された。3つの分析を実行した。

類似性分析:我々は製薬物質としてテストコーパスで言及されている「イブプロフェン」を選び、コサイン計算を用いて上位10個の類似の単語を回収した。理想的にはイブプロフェンは薬なので、類似性テストで期待されるのは薬、もしくは化学物質の名前である。
 得られた結果は注意して、そして固有表現認識NERモデルの結果と並べられた。表4が示すように、化学特許埋め込みはより一般的な、もしくは特許目的ではない相手よりより成績を示す。そのうえ、ELMo埋め込みは更に良い結果を示す。Mat2Vec、Drug、PubMed埋め込みは一般的な名詞「drugs」、略語「mg」、形容詞「topical」、動詞「mimics」を返している一方、化学特許Word2VecとELMo埋め込みは製薬名、もしくは化学物質名のみを返した。同様に興味深いことに上位に入っている類似の物質名(アスピリン、タクリン、アトロピン)はいくらか同様に抗炎症性の性質を示す。

一致分析:これらのリストが意味論的にどれほど整列しているかを確認すると、傾向は大部分は確認された。化学用語は複数の意味を持つ傾向があるので、これらの語を正常化するためにドラッグバンクを利用した。終わりに、どれくらいの埋め込みが「イブプロフェン」という語の理解について一致しているか、結果として起こる規格化された表の類似性を測定した。

表5に示されるように化学特許W2VとELMo埋め込みは大体は合致している(それぞれ、0.43と0.54)。その一方で、製薬埋め込みとMat2Vec埋め込みは他の埋め込みと合致していないように見える。興味深いことにPubMed Word2Vec埋め込みは化学特許埋め込みと予想されるよりも高く合致している。

相関性分析:最後に埋め込み間の相関性の程度について測定を行った。図3に示されるように、ELMo同士は(0.91)^5という高い相関性がある。化学特許埋め込みとPubMed Word2Vecについては全ての埋め込みについて適度に相関性が見られ、その一方で、Mat2Vec埋め込みと製薬埋め込み間はより低い相関性を示した。





 

 

0 件のコメント:

コメントを投稿