1.wikipediaのデータを取ってくる。
curl https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 -o jawiki-latest-pages-articles.xml.bz2
2.テキストデータへの変換を行う。
git clone https://github.com/attardi/wikiextractor
python3 wikiextractor/WikiExtractor.py jawiki-latest-pages-articles.xml.bz2
3.ここまでやるとtextディレクトリが作成されているので、ここの情報を一つにまとめるために以下の処理を行う。
cat text/*/* > jawiki.txt
4.mecabのインストール
5.mecabで分かち書き(mecabエラー)
「mecab -Owakati jawiki.txt -o jawiki_data.txt」
としたところ、
「input-buffer overflow. The line is split. use -b #SIZE option.」
とエラーが出た。
そこで、バッファーを大きくして
「mecab -b 81920 -Owakati jawiki.txt > jawiki_data.txt」
6.word2vecで機械学習
/usr/local/bin/word2vec -train jawiki_data.txt -output jawiki_data.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -binary 1
7.word2vecで計算
/usr/local/bin/word2vec-distance jawiki_data.bin
2017年4月24日月曜日
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿