2017年4月27日木曜日

word2vecのオプション

/usr/local/bin/word2vec -train jawiki_data.txt -output jawiki_data.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -binary 1

-train:学習させるデータ。半角スペースで区切られた単語列。1行ごとに文脈ベクトルの処理対象となる。

-output:文脈ベクトルの出力先ファイル

-cbow:Bags of words Modelを使用するときには1と指定する。defaultは1となっており、Skip-gram modelを使用する時は0とする。

-size:文脈ベクトルの次元サイズ(defaultは100)

-window:文脈ベクトルを計算する際に、対象語から調べる前後の語の数。defaultは5となっている。大きな値を指定すると、より広範囲の語まで処理対象とする。

-negative:Negative Samplingで用いる例の数。defaultは5となっており、妥当な値の範囲は3から10となっている。0を指定するとNegative Samplingを行わない。

-hs:学習にHierarchical Softmaxを用いて計算させたい場合に1と指定する。defaultは0。

-sample:Hierarchical Softmaxの際に頻出語をカットするスレッシュホールドを指定する。defaultは1e-3となっており、妥当な値の範囲は0から1e-5となっている。

-binary:Binary形式で出力したい場合に1と指定する。defaultは0となっており、テキスト形式で出力される。

参考リンク:word2vecのオプション一覧

http://repository.seinan-gu.ac.jp/bitstream/handle/123456789/1302/co-n62v3_4-p263-284-yos.pdf?sequence=1

0 件のコメント:

コメントを投稿