近期工作总结基于贝叶斯分类的文本过滤软件开发
最近一段时间忙于开发文本过滤软件,疏于打理博客了。经过近一周的工作,基于贝叶斯分类的文本过滤软件完成了从理论到实际开发的过程,已经初具雏形了。
笔者从网上搜集了约1200行文本记录,其中约900行正常文本,300行需要过滤的垃圾文本,并对这些文本进行了训练,实验的结果是相当不错了,可以过滤掉大多数长文本如:版权声明、广告、论坛签名、文章发表时间等等。具体请看第二张图的实验结果^_^
软件也从初期的完全手动操作转为半自动的批量处理,大大减轻了笔者的工作量^_^
软件分四个模块,分别为样本训练、词库管理、分词词库管理和实验验证。
目前只做好了样本训练和实验验证,词库管理等后期优化的时候再做了,文本过滤器做好后接着是对结果进行分类和聚类,以获得和关键词最相关的内容,再接着是提取主题并获取摘要。=_=! 而文本过滤只是我的 网站发布机 软件的一个模块而已~~~
感觉好像万里长征,一款软件的面世原来如此的艰辛,之前想像的简单了点;希望利用之前别人写好的代码修修改改完事,看来是不靠谱的=_=!
开发软件,真不错!