自然言語処理についてはディープラーニングの応用例ばかり見ていて、MeCabすら仕組みを理解していないことに改めて気づき、「テキスト処理の要素技術」という書籍を読んでみている。
う~ん、当たり前だけれどやっぱり基礎がなっていないと応用ばかり考えてもどこかで行き詰る、ということを教えられた…かな?
いや、というよりはディープラーニング系の自然言語処理は「大規模にデータを集めてディープラーニングさせればなんとかなるでしょ」的な考えが見られるような気がするが、「いや、それではだめでしょ」と言われた感じか。
とは言うものの、著者も述べているが、構文情報や文脈のみからはすくい取れない意味情報(例えば対義語は同じ文脈で出てきがち)の情報学的表現が難しく、一方でそれらを直接は取り込んでいない現在のディープラーニング的手法がコンピューティングパワーにものを言わせて実際の成果を出しているのも事実。
果たして古典的(?)な文法理論や、従来型の自然言語処理的な考え方をうまく現在のディープラーニングと組み合わせる方法はないものだろうか。