网站发布器软件开发进度
最近忙于考研和开发软件,写文章、看文章的时间越来越少;自己研制的网站发布器做好了第一阶段的工作:从百度风云榜关键词订阅中获取相关网页内容,已经完成;下一步是开发网络爬虫的功能;
我的想法是从百度风云榜中获取关键词,解析后保存到硬盘中,再通过爬虫爬取网页内容,接着通过分词、分类、聚类、信息自动加工,生成原创文章;透过wordpress的xml-rpc协议远程发布到博客。
其实,不难看出如何生成原创文章,这点是最难的,目前的想法是,使用一个通用的web文本抽取工具(这个工具在我早期的研究中已经开发完毕,效果不必市面上已知的文本抽取工具差哦^_^,自豪一下)来获取正文,接着再使用“摘要”+“复述”的方法来生成原创;生成“摘要”不难,“复述”则很复杂;需要应用到的知识有“语义”、“语法”、“句法”,通过提炼句法模板,找到相同的语义的句子,最后匹配、替换。
例如:“事发后,伤员被及时送往就近医院救治”和“晚上7时左右,所有伤员被送到了医院”句子意思差不多,不过,结构却不一样,通过语义分析,排除岐义,分析出词组搭配,判断相似程度,最终决定两句意思是否相同。
这个主要用于收录,啊哦!我对SEO不太关注,顺其自然!
我也坚持原创搏客:)
哇,这么浮躁的软件啊~
:)做着玩嘛,以前一直想做的玩意儿