あほになった原因が判明しました。助詞の処理の問題です。
チャットでよく出現する発言で、
「わはははは」
ってのを例に挙げます。
これは人間には笑い声と認識されます。
これまでのるすぢでは、
わは、は、は、は、(わ「名詞」、は「助詞」、は「助詞」、は「助詞」、は「助詞」)
と認識されていました。まぁこれはこれで間違ってるんですけどね。助詞の頻度が高いんです。
新留守ぢでは、
わは、はは、は。(感じとしては、「輪は、葉は、歯。」ただし、わ「名詞」は「NULL」、は「不定語」は「NULL」、は「不定語」は「NULL」)
となります。
助詞助動詞が全部一緒くたにNULLにされていますし、不定語と認識されるときもあるようです。
こちらの方が現実に近いのですが、どちらにしても間違っています。
今まで全部助詞として認識されてたのが、助詞と不定語の2種類に分けられちゃってるんです。
どちらが文法上正しいとかじゃなくて両方間違っているんですが、たまたま前の認識が文章生成には都合が良かったんです。
これの派生系に「ぎゃはははは」ってのもあります。
日本語って難しいぞ。外人が日本語を学ぶときに「擬音語」が猛烈に難しいって言うもんな。
うーん。困ったぞ。んで、考えたのが、辞書登録。新エンジンでは辞書登録が簡単にできます。
「わはははは」「感動詞」
と登録すれば解決。きれいにいくようになります。ということは、それなりにチャットに適した辞書が必要ということになります。
さて次の問題。んじゃ、この辞書をどうやって作りましょうねと。。。3時のおやつ辞書ですな。
手でやってたら泣きそうに面倒なんですが。。。どっかにチャット用辞書って転がってないかな。
2CH用語辞書は転がってるなぁ。
みんなで作ろうかな。そんな企画でもやろうかな。うーん。なんかいい手は無いかな。暇人募集しようかな。うーーーん。考えどころだ。

コメントを残す