正文抽取中阈值计算公式
下文是网站发布器的正文抽取所用到的原理,描述起来有些费劲,用公式写出来,做个备忘。
如何确定正文抽取中阈值的大小,用 小写 y 表示文本项,小写 z 表示非文本项,最佳阈值可以描述为一个文本项概率(p)与每项之前分布的关系。
阈值可以表示为:
其中 代表所有y的平均值:
,
, p 为文本项出现的频率,此处需要注意的是,如果p=0.5,则上面的公式就会出错,有兴趣的可以反推一下。
其中 可以表示为:
举例说明:现有3 个文本项长度分别为:0.2, 0.6和0.7, 2 个非文本项 长度为0.3 和0.36。
经过上述处理的阈值具有更好的适应性;不过,实验结果还有待验证^_^。使用上述公式的时候,抽取结果中可能会夹杂一些无用的重复数据,这个需要使用神经网络机器学习,进一步提高阈值的正确性。
做到这里,我的网站发布器已经完成了RSS分析、收集,蜘蛛采集(c#采集器,比什么火车头之类的好用的多,^_^个人自我感觉良好)、以及正文抽取这几项功能;无需定制任何模板,可以是收集到正文正确率达65%以上(这个还有待改进)。
剩下的就是内容原创了,之前没有接触过,收集的资料也相对较少,继续研究吧。
我这个我淡定 华丽的飘过!
同楼下~
做个软件,目的不在于次,为以后的数据挖掘做准备^_^
此篇文章的图片都不显示。。。。
你好,原文中的图片已经被删除了
你好,还能否找到原文的图片呢?或者你那里有没有相关的?
你好,刚才找了一遍硬盘,还是没找到,这篇文章发表的时间太长,其中的理论我试验过,效果并不是很理想,我可以撰写另一篇帖子关于最新的正文抽取方法的研究