关于文本去重及数据清理的一些想法
前几天一直研究如何从网页中抽取正文,使用的方法是基于文本相对于html标签密度。虽然只用到了最简单的统计学原理,但效果好的让我惊讶。
随之而来的问题是,统计学无法剔除一些与正文无关的或长或短的文本。重复短文本在采集论坛型网页中尤为突出;例如用户签名、在线时间等。另一些无法剔除的长文本如网页底部的版权信息、声明也占据很大比例
显然,这些文字有一定的相似性,并且无法通过简单统计来确定去留。
想过用神经网络加监督学习的方式来去噪,但似乎并不成熟,且需要大量训练文档语料库,太费事。
偶然想起以前从谷歌黑板报上看到关于计算文本相似度的文章,觉得大可以借鉴一下。
步骤设想如下:分词、去除停用词、计算tf/idf权重并为每行生成一权重项量、初步过滤、计算相似度去重、文本聚类、数据清理、结束。
目前,前三步的编程工作己完成。难点在后面。
^_^,感觉越来越难,不过也很有成就感,毕竟是自己的作品嘛
多练习了就是高手了