「Softdev」カテゴリーアーカイブ

データの変換終了。5日間120時間かかったってことですね。うーん。でかい。
知識データがすべて変換できたので、新バージョンを試験稼動させています。まだ全部の機能が実装終了したわけではありませんが、とりあえず、耐久試験ということで。
今、動いてるのはデバッグ版ですので、何かエラーを検知すると自動的に止まります。おかしなところで止まるかもしれません。
過去の履歴はリセットしてあります。まだデータの変換してないからです。
問題がいろいろ見つかるかと思いますが、そのときには寛大なご処置をお願いいたします。
既に見つかったのは、
登録物の発言をするしないの判定がおかしいらしい
です。週末には治します。

やっと時差ぼけが抜けました。よって、この週末はちゃんと開発できました。
各種設定をレジストリから変更できるように修正しました。これで、ちょっとはメンテナンスがやりやすくなると思います。コマンド関係はまだレジストリに逃がしてないので、コマンド関連の設定をレジストリに逃がすことは、今後の課題。
DBをアクセスからSQLサーバーに移行して試験。ちょろちょろ問題が見つかったのでそれを修正。Boolってアクセスだと、True,Falseで通るけど、SQLだと1,0じゃないと通らなかった。
過去の知識を過去ログから新DBに全部移行してます。すんげぇ時間んかかってます。48時間過ぎたところで、半分終わりました。後ろになればなるほど、処理に時間がかかるようになるので、あと3-4日かかるかもしれません。もしかしたら、もっとかも。。。新バージョンになって、DBのサイズがでかくなるので、このあたりも実データでどんな感じになるのか見たいところです。半分の時点でどんなデータが生成されているかさらっと統計を取ってみたのですが、「う~ん。このまま行くと処理に時間がかかるデータの流れだなぁ」と。ストアードプロシジャ使ってコピーを減らす方向も、考えたほうがええのかな。んでもストアードプロシジャを使うと、SQLサーバー限定になっちゃうんだよな。
ゆーきちゃんが、ODBC接続でDBをLinux上のMySQLにすることに成功。プログラムの変更はなかったらしい。DBの接続先を変更したのみらしい。んでも、これできちゃうと、SQLサーバー限定だと困るんだろうな。
最近、お部屋が大変繁盛しております。繁盛するのはうれしいんですが、チャットの部屋に人がたくさん居すぎて、会話が難しくなりつつあります。まぁ、ゴールデンウィークだから混んでるってこともあるんでしょうが、うれしい限りです。うれしい悩みです。なんかアイデアを出さないと、こまったちゃんになる可能性があります。
思いつきですが、3時のおやつ別館を作って、留守番ぢが本館、留守番ゆうきが別館にいて、ロボット通しがコミュニケーションをとるってのも面白いかも。ロボットがうまく部屋の割り振りの提案をしてくれればそれなりに機能するかな?まぁちょっと考えてみます。

最近、開発サボってます。時差ぼけが抜けなくって夜になると眠いし、朝になると目が覚めます。当たり前かもしれませんが、おらにとっては当たり前じゃないです。自分の時間が少なすぎます。昼間は会社で眠いです。まじめに留守番ロボットのバージョンアップを仕上げなくては。。OFF会に向けてるすぢトーカーインストーラーも仕上げなきゃだめだしな。
自分に対するメモ。
またひとつアイデアが思いつきました。人工無能の世界では結構有名なアルゴリズムのひとつに、スクリプトを用いた単語置き換え系ってのがあるんですが、こいつを留守番君に仕込んだら、今より賢く見えるかも。もちろんスクリプトなんて使わずに自力学習ですが。。。
そいえば、日本に行ったとき、巷で賢いと有名な音声認識エンジンを見てきたんですが、予想外にあほでした。結局IMEと同レベルだもん。まぁIMEが賢くなれない以上、それ以上は音声認識エンジンは賢くならないだろうな。IMEは、かなー>漢字変換ですが、音声認識は、音素ー>かなー>漢字変換ですし、音素に対する誤り訂正の機能をどう実現するのか、まぁ多分統計的にやってるんでしょうけど、このあたりの処理がまだまだでした。やっぱりある程度の意味解析はどうしても必要になってきてしまうんだろうか。どこの世界でも文脈の追跡ってのがネックになるんだろうなって思いました。

日本から帰ってきて、既に5日が過ぎますが、いまだに時差ぼけ真っ最中です。眠くて眠くてかないません。いつも1週間くらいで時差ぼけが抜けるんですが、今回は2週間かかるかもしれません。開発どころではありませんわ。
日本に行ったついでに、ゆうき先生に留守番ロボットのセットアップ方法を説明してきました。現在、留守番ぢと留守番ゆうきの2台体制で稼動しております。2台体制だとそれなりにいろいろ問題が見つかるもんですなぁ。これらの問題もちまちま解決して新留守番ロボットに反映していきたいです。そろそろ新ロボットのDBのテストもしなきゃなぁと思う今日この頃。
日本に行ったついでにいろいろ自然言語処理に関する本を調達してきました。今、ぼちぼち読んでます。これがまた時差ぼけを増長してる原因とも思われる。んでも、チャットに関してはあんまり新しいネタは見つかりませんなぁ。やっぱり学術系の本じゃだめなんだろうか。。。
日本で買ってきた本の中に「年収300万円時代を生き抜く経済学(森本卓郎)」ってのがあります。ざっと読みましたが、要するに日本は金持ちと貧乏人との差がひろがりますよ。収入が少なくても豊かな人生は送る準備をしてくださいよ。ってな本です。細かいところは賛成できるところもあるし、賛成できかねるところもありますが、いわゆる金持ち父さんの本とは逆の見方をしている本であって、おもしろかったです。

しばらく更新をサボってましたが、強制退去処分機能が完成しました。が、とんかちが取れるので必要ないかも。まぁ「ささぼっと」よけに使う機能の実験ということで。。。
今月はちと雑用が忙しいので開発自体はお休み。月末に復活予定。
その間はしばらく、お勉強だな。重点項目は当然、「話題の流れ」
いろいろとネタはあるので、思考実験を繰り返すとしよう。

とんかち配布機能を実際の環境で試験しました。
いくつか小さな問題がありましたがその場で修正して解決。とんかち配布機能は完成です。
過去のデータを半分くらい食わせてみて発言の様子を見てみましたが、結構いい感じです。予想以上にちゃんとした文章を吐きます。まぁ相変わらず場違いな発言ではありますがね。ただ、過去の発言がそのままでてきちゃうことがちょっと多いかも。まぁあとは辞書との組み合わせでいろいろ試して見ます。
相変わらず話題の追跡に問題があるなぁと実感したりして。。。

辞書についていろいろ調べてました。結局適切な辞書って存在しないんだよな。また辞書を学習させるためのAPIは公開されて無い模様。うーん。詰まったぞ。
さらっと3時の辞書作ってやってみたら、辞書に登録してある範囲に関してはうまくいくみたい。んでも、辞書からはずすともうだめ。チャットに特化した辞書が必要であることが判明。もしかしたら、エンジン自体もチャットのことを考慮していないとだめかもしれない。
というのは、例えば、
ゆうき、これは辞書に入っています。
ゆーき、これ、辞書にありません。
ゆ~き、もちろんこれも辞書にありません。
ゆぅき、これも無いわな。
てな風にチャットだとバリエーションが出てるんですよ。このバリエーションをうまくクリアしない限り解決しないと思われる。うーん。奥が深い。
んで、とりあえず、助詞に関してあほあほなので、単語単位の処理だけでなく、文節単位の処理も入れました。助詞助動詞は全部NULLにして返してくれるので、NULLが出てきたら、直前の単語とつないだら、それで文節が出来上がってるかなと。それなりに、うまくいっています。ただし文章のバリエーションがちょっと狭まってるかも。今、過去データを食わせています。どんな感じか見てみようと思ってさ。
まぁこのあたりは調整の範囲ですな。
記号の処理の部分、特に顔文字の処理の部分が前エンジンでは対処してあったのに新エンジンで抜けてたのでそれを対処しました。

あほになった原因が判明しました。助詞の処理の問題です。
チャットでよく出現する発言で、
「わはははは」
ってのを例に挙げます。
これは人間には笑い声と認識されます。
これまでのるすぢでは、
わは、は、は、は、(わ「名詞」、は「助詞」、は「助詞」、は「助詞」、は「助詞」)
と認識されていました。まぁこれはこれで間違ってるんですけどね。助詞の頻度が高いんです。
新留守ぢでは、
わは、はは、は。(感じとしては、「輪は、葉は、歯。」ただし、わ「名詞」は「NULL」、は「不定語」は「NULL」、は「不定語」は「NULL」)
となります。
助詞助動詞が全部一緒くたにNULLにされていますし、不定語と認識されるときもあるようです。
こちらの方が現実に近いのですが、どちらにしても間違っています。
今まで全部助詞として認識されてたのが、助詞と不定語の2種類に分けられちゃってるんです。
どちらが文法上正しいとかじゃなくて両方間違っているんですが、たまたま前の認識が文章生成には都合が良かったんです。
これの派生系に「ぎゃはははは」ってのもあります。
日本語って難しいぞ。外人が日本語を学ぶときに「擬音語」が猛烈に難しいって言うもんな。
うーん。困ったぞ。んで、考えたのが、辞書登録。新エンジンでは辞書登録が簡単にできます。
「わはははは」「感動詞」
と登録すれば解決。きれいにいくようになります。ということは、それなりにチャットに適した辞書が必要ということになります。
さて次の問題。んじゃ、この辞書をどうやって作りましょうねと。。。3時のおやつ辞書ですな。
手でやってたら泣きそうに面倒なんですが。。。どっかにチャット用辞書って転がってないかな。
2CH用語辞書は転がってるなぁ。
みんなで作ろうかな。そんな企画でもやろうかな。うーん。なんかいい手は無いかな。暇人募集しようかな。うーーーん。考えどころだ。

今日は実機試験をしました。
あきませんな。あほになってます。どうも原因はどっかに間違いがあるようで。。。
うーん。俺の頭の中の、参照渡しとコピー渡しの概念がC++のままのようで、そのあたりに問題が潜んでいそうです。こりゃやっかいだぞ。。。