日本語をfastText - ふさふさ日記

こちらもまずなぞってみる。

ひとまず、WikiExtractorを

で取得し、

cd WikiExtractor/wikiextractor

で下のディレクトリに移動。因みに、

WikiExtractor.py

の66行目の

from .extract import Extractor, ignoreTag, define_template, acceptedNamespaces

は

from extract import Extractor, ignoreTag, define_template, acceptedNamespaces

に修正しないと動かなかった(Windowsの場合)。

次にcygwinでこのディレクトリに移動した上で、

で元ファイルを取得する。ダウンロードが完了すれば、

python3 WikiExtractor.py -b 500M -o corpus jawiki-20220201-pages-articles-multistream.xml.bz2

で処理が始まった。結構前に書かれたスクリプトなのでどこかの段階でエラーが出る可能性があるけれどひとまず止まるまで放置。

それにしても処理対象とするファイルも人それぞれで、異なるファイル形式の場合何が違うのかも理解できていない。