2020年11月11日水曜日

word2vecの計算方法について

簡単なword2vecの計算方法

from gensim.models import word2vec

files = word2vec.LineSentence('data.txt')

model = word2vec.Word2Vec(files, size=200, min_count=10, window=10, sample=1e-3)
model.save("out.model")


注釈
データを読み込むときはword2vec.LineSentence、または
word2vec.Text8Corpusを使っているケースが多いが、とりあえず、LineSentenceを使っておけばよい。

Text8Corpusを使うのは以下の時。


    テキストと画像キャプションは保持
    テーブルや外国語バージョンへのリンクを除去
    引用、脚注、マークアップを除去
    ハイパーテキストはアンカーテキストだけ保持。それ以外は除去
    数字はつづりを変換。たとえば、"20"は"two zero"に変換
    大文字を小文字に変換
    a-zの範囲に入らない文字はスペースに変換


参考リンク

日本語版text8コーパスを作って分散表現を学習する

gensimのword2vecのためのオプション一覧

0 件のコメント:

コメントを投稿