日本語をfastText

こちらもまずなぞってみる。

ひとまず、WikiExtractorを

git clone https://github.com/attardi/wikiextractor.git

で取得し、

cd WikiExtractor/wikiextractor

で下のディレクトリに移動。因みに、

WikiExtractor.py

の66行目の

from .extract import Extractor, ignoreTag, define_template, acceptedNamespaces

from extract import Extractor, ignoreTag, define_template, acceptedNamespaces

に修正しないと動かなかった(Windowsの場合)。

 

次にcygwinでこのディレクトリに移動した上で、

wget https://dumps.wikimedia.org/jawiki/20220201/jawiki-20220201-pages-articles-multistream.xml.bz2

で元ファイルを取得する。ダウンロードが完了すれば、

 

python3 WikiExtractor.py -b 500M -o corpus jawiki-20220201-pages-articles-multistream.xml.bz2

 

で処理が始まった。結構前に書かれたスクリプトなのでどこかの段階でエラーが出る可能性があるけれどひとまず止まるまで放置。

それにしても処理対象とするファイルも人それぞれで、異なるファイル形式の場合何が違うのかも理解できていない。