辞書についていろいろ調べてました。結局適切な辞書って存在しないんだよな。また辞書を学習させるためのAPIは公開されて無い模様。うーん。詰まったぞ。
さらっと3時の辞書作ってやってみたら、辞書に登録してある範囲に関してはうまくいくみたい。んでも、辞書からはずすともうだめ。チャットに特化した辞書が必要であることが判明。もしかしたら、エンジン自体もチャットのことを考慮していないとだめかもしれない。
というのは、例えば、
ゆうき、これは辞書に入っています。
ゆーき、これ、辞書にありません。
ゆ~き、もちろんこれも辞書にありません。
ゆぅき、これも無いわな。
てな風にチャットだとバリエーションが出てるんですよ。このバリエーションをうまくクリアしない限り解決しないと思われる。うーん。奥が深い。
んで、とりあえず、助詞に関してあほあほなので、単語単位の処理だけでなく、文節単位の処理も入れました。助詞助動詞は全部NULLにして返してくれるので、NULLが出てきたら、直前の単語とつないだら、それで文節が出来上がってるかなと。それなりに、うまくいっています。ただし文章のバリエーションがちょっと狭まってるかも。今、過去データを食わせています。どんな感じか見てみようと思ってさ。
まぁこのあたりは調整の範囲ですな。
記号の処理の部分、特に顔文字の処理の部分が前エンジンでは対処してあったのに新エンジンで抜けてたのでそれを対処しました。