簡単なword2vecの計算方法
from gensim.models import word2vec
files = word2vec.LineSentence('data.txt')
model = word2vec.Word2Vec(files, size=200, min_count=10, window=10, sample=1e-3)
model.save("out.model")
注釈
データを読み込むときはword2vec.LineSentence、または
word2vec.Text8Corpusを使っているケースが多いが、とりあえず、LineSentenceを使っておけばよい。
Text8Corpusを使うのは以下の時。
テキストと画像キャプションは保持
テーブルや外国語バージョンへのリンクを除去
引用、脚注、マークアップを除去
ハイパーテキストはアンカーテキストだけ保持。それ以外は除去
数字はつづりを変換。たとえば、"20"は"two zero"に変換
大文字を小文字に変換
a-zの範囲に入らない文字はスペースに変換
参考リンク
2020年11月11日水曜日
word2vecの計算方法について
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿