Thinkなブログ: 文献紹介：Word Embeddings for Chemical Patent Natural Language Processing (Part 4)

2021年5月7日金曜日

文献紹介：Word Embeddings for Chemical Patent Natural Language Processing (Part 4)

3.Conclusion
　我々は医療に近い領域の単語埋め込みに対して、化学特許を通じて訓練された単語埋め込みの質について研究を行った。我々の実験によって、特許埋め込みは他の埋め込みに対して、化学NERの優れたF1値で示されるように、外来的に優れていることが示されている。相関性と類似性分析によって、これらがまた内省的にも優れていることが示され、このことによって化学領域の理解が深まった。また、文脈化した単語埋め込み（ELMo）は全体的により良い結果を生み出し、一般的ではあるが、大規模のPubMed ELMo埋め込み（これは生命化学領域の全体を覆う）は化学領域において穏当な結果を生み出した。

付録

　ここに2種類の可視化データを示す。1つ目は単語埋め込みデータで、もう１つは表４における分子類似度ランキングである。化学構造式を作るため、そして分子類似度を測るために、RDKitを利用した。我々はリスト中の用語を知らないふりをして、規格化も行っていない。単語埋め込みの可視化データに対して（単語埋め込みの範囲を全てカバーしている）SCAIテストコーパスから100語ランダムに選んで取り上げた。これと並行して、t-SNEアルゴリズムを用いて、単語埋め込みにおける200次元を2次元にまで減少させた。
　可視化データは概して論文中で考察したものと合致する。類似度ランキングはELMo埋め込みランキングにより合致する。同様に、ELMoによる単語埋め込みの可視化データは他のものがかなり分散しているのに対して、収集する傾向がみられた。