こちらもまずなぞってみる。
ひとまず、WikiExtractorを
git clone https://github.com/attardi/wikiextractor.git
で取得し、
cd WikiExtractor/wikiextractor
で下のディレクトリに移動。因みに、
WikiExtractor.py
の66行目の
from .extract import Extractor, ignoreTag, define_template, acceptedNamespaces
は
from extract import Extractor, ignoreTag, define_template, acceptedNamespaces
に修正しないと動かなかった(Windowsの場合)。
wget https://dumps.wikimedia.org/jawiki/20220201/jawiki-20220201-pages-articles-multistream.xml.bz2
で元ファイルを取得する。ダウンロードが完了すれば、
python3 WikiExtractor.py -b 500M -o corpus jawiki-20220201-pages-articles-multistream.xml.bz2
で処理が始まった。結構前に書かれたスクリプトなのでどこかの段階でエラーが出る可能性があるけれどひとまず止まるまで放置。
それにしても処理対象とするファイルも人それぞれで、異なるファイル形式の場合何が違うのかも理解できていない。