未だにBERTのtokenizerがどうなっているかよくわからないのだけれど、sentencepieceだとそもそも単語区切りですらなく処理している、ということになると一生懸命形態素解析をする意味とは?と思ってしまう。
どうやら人間から見て正しい解析手法は機械で解析する場合には必ずしもそうではない、ということなのか?そうなると統語論は?意味論は?
でもBERTやGPT3でも完璧ではない感じで、そういったところに従来型の知見を組み合わせると改善されるのか、どうか。
ま、専門家たちがあれこれやっているのだろうけれど、本当に自然な長文を生成する機械ができると、面白そうであるとともに不気味でもある。