ネットにGPLでPHP用のベイジアンフィルターを見つけました。
ただ、スペース区切りっぽいので日本語の場合、何らかの方法で区切る必要がある。
というわけで、久々に形態素解析!MeCabです!
前の会社だと日常的に使っていたけど、今の会社では初めてかな?
MeCabに対応させて、いくつか学習させてみました。
まだまだ精度は微妙…。
でも、うちのサービスはデータ量はめちゃくちゃ豊富なので、上手く取り出して学習させてあげたいなぁ。
そこまで、できたら辞書と学習用データ以外はオープンソースで公開します(笑)
日本語対応のベイジアンフィルターってないのかな?
しかも、オープンソースで。
凄い使いたい!(スパム対策として)
なければ、勉強して組むしかないのかな…。

最新コメント