日本語 Wikipedia エンティティベクトルの簡易検証

「PyTorchによる発展ディープラーニング」の7-4のスクリプトを実行する際に、東北大学のモデルの代わりに、今回作成したデータを用いてみる。まず、次元と単語数は、

一単語を表現する次元数: 300
単語数: 901585

そうか、データが大きくなっているのは次元数を増やしたからか。単語数が減っている原因は不明。そして最後に姫 - 女性 + 男性で計算されたベクトルと単語とのコサイン類似度を計算すると、

女王 tensor(0.3933)
王 tensor(0.4533)
王子 tensor(0.5346)
機械学習 tensor(0.1084)

と、そこそこ妥当な値が出ているけれど、元のモデルの方が若干差が大きかったようだ。

いずれにしても、word2vec表現の情報をどう使うか、これ以上は思いつかないが、検索するとこれを文章類似度の計算のために用いたりすることでテキストの分類ができるようだ。何かよい例はないものだろうか。