归档 开发笔记

好记性不如烂笔头

wordpress自用主题进一步完善

今天花了半天的时间,进一步完善了小站的wordpress主题,主要的改进是侧边栏的显示。如何让搜索引擎收录的更快、更多;让用户能够获得更好的访问体验。这一点一直让笔者大伤脑筋的事情。

WordPress新主题自用版

小博自开通以来只换了一次主题,这一年多来,写了约200篇文章,实在算不上多产^_^!。这次将linodde vps搬迁至亚太机房,浏览速度翻倍。总体感觉了一下原有的主题效率实在不高,于是自己写了一个wordpress主题自己使用。 昨天,花了半天时间研究了wordpress主题基本制作的方法,今天一天时间编写代码(基于某某主题^_^)。中午都没顾上吃饭,辛苦阿。 这次更新主题大约会持续一周时间,今天只是第一步骤,将主题基本搭建完成。相比于原有主题,最主要的进步是提升了用户体验。原有主题太乱了(自己太懒);另外,本次wordpress主题使用了多语言包,面向全球用户^_^ 后续,会继续增加实用的主题选项,包括自定义页脚(方便添加统计代码、图片);自定义公告;展示橱窗等;目前只想到这两点,其他不知道各位网友还有什么好提议^_^ 测试完成后,完善代码。最终打包发布出来,与各位共享。

博客可以通过手机访问啦

随着手机网络的兴起,越来越多的朋友习惯了手机访问网页。不过要想通过手机访问英特网,流量是个不大不小的问题,所以,笔者郑重决定(=_=!),开始推出小博的手机版本。 二级域名:m.cnphp.info 也可以通过顶级域名访问,会自动检测客户端类型的^_^。 另外,手机界面的基础功能已经不错,下一步会逐步汉化所有内容,和做一些微调。

为网站发布机重新编写代码

最近一段时间一直在外地出差,许久没有写博客了。^_^不过,在临出差之前笔者吧自己的网站发布机软件重写了大部分代码,修改后的代码有更好的通用性。 笔者把网站发布机分成3个部分。考虑到要使用到多线程,由于程序比较复杂,将原本的一个单独的程序改成3个程序,分别负责监控采集、正文分析过滤和最终的生成文章。这样做的好处也显而易见。 另外,采集后的文章也由直接文件夹存储改为数据库存储,笔者选择了sqlite这个小巧但强大的数据库,并且支持多线程操作,大大提升了效率。 因为把采集和分析分开处理,使得线程不必为此而等待^_^. 虽然笔者一直在出差,不过家中的采集器正在卖力的工作呢^_^,回家后再看看采集成果吧。 工作虽然很累,可是不用管家中的事情,对笔者来说也算是忙里偷闲吧。

近期工作总结基于贝叶斯分类的文本过滤软件开发

最近一段时间忙于开发文本过滤软件,疏于打理博客了。经过近一周的工作,基于贝叶斯分类的文本过滤软件完成了从理论到实际开发的过程,已经初具雏形了。 笔者从网上搜集了约1200行文本记录,其中约900行正常文本,300行需要过滤的垃圾文本,并对这些文本进行了训练,实验的结果是相当不错了,可以过滤掉大多数长文本如:版权声明、广告、论坛签名、文章发表时间等等。具体请看第二张图的实验结果^_^

贝叶斯分类算法在文本过滤中的应用

贝叶斯公式的应用可谓相当广泛,在机器学习中,最常用来作为分类器使用。同时,在垃圾邮件过滤方面贝叶斯分类器也有十分不错的表现^_^。好奇的同学,可以找找自己的foxmail中,也有贝叶斯分类器的选项。 之前,笔者曾经谈到过正在开发的一款软件 网站发布机 其中需要将采集后抽取到正文的进行过滤处理,滤除与文章无关的,例如:页脚版权声明,连续的英文字符串等等。尝试了很多方法,均告失败=_=! ,直到看到一篇使用贝叶斯公式过滤垃圾邮件的论文,思路才明晰起来。能否利用同样的原理来对文本进行过滤呢?笔者也对方案的可行性做了一些分析。

网站发布机开发进度

笔者自己写的文章“原创”+发布软件开发已经有一段时间了,在解决无数问题之后,终于到了最后阶段--软件测试。 生成的结果也相当不错,例如有这样一个网页,我随机从库里找的一篇新闻 原文地址: http://news.cnxianzai.com/2010/09/292153.html 正文抽取结果:男童打疫苗后死亡 广西查获千余份假狂犬疫苗正文抽取结果 ===================单文本摘要后的文本====================================== 据南国早报报道2009年10月底,广西来宾市兴宾区正龙乡果塘村一名5岁男童被狗咬伤后,到该乡卫生院打狂犬疫苗,21天后病发致死。经化验,所用狂犬疫苗为假药。来宾市经几个月调查发现,全市非法渠道进购药品的乡镇卫生院13家,村卫生所(个体诊所)20家,查获“问题”人用狂犬疫苗1000多人份……。男童病死查出疫苗造假。送检的疫苗经过检验,为假药。卫生院长被拘留38天。叶显幹的儿子小建在正龙卫生院出事后,来宾市有关部门还在该卫生院药房里查获了一批假疫苗。肖建昌告诉记者,2009年10月,正龙卫生院防疫组新进了同一个批号的狂犬疫苗,只有20人份,是来宾市信尔医药有限公司提供的。狂犬疫苗属于二类疫苗,有资质的单位都能够进货。13家卫生院查出假疫苗。经查,来宾市涉嫌从非法渠道购进药品的乡镇卫生院13家,村卫生所(个体诊所)20家,涉嫌非法销售疫苗12人。涉案“问题”人用狂犬病疫苗1000多人份,涉及货值33万多元。 ======================================================================== 下一步是生成多文档摘要,将多篇文章的精华,按照时间、地点顺序浓缩成一篇全新的文章!达到原创的目的。离胜利只差一步了^_^~~~~

关于文本去重及数据清理的一些想法

前几天一直研究如何从网页中抽取正文,使用的方法是基于文本相对于html标签密度。虽然只用到了最简单的统计学原理,但效果好的让我惊讶。 随之而来的问题是,统计学无法剔除一些与正文无关的或长或短的文本。重复短文本在采集论坛型网页中尤为突出;例如用户签名、在线时间等。另一些无法剔除的长文本如网页底部的版权信息、声明也占据很大比例 显然,这些文字有一定的相似性,并且无法通过简单统计来确定去留。 想过用神经网络加监督学习的方式来去噪,但似乎并不成熟,且需要大量训练文档语料库,太费事。 偶然想起以前从谷歌黑板报上看到关于计算文本相似度的文章,觉得大可以借鉴一下。 步骤设想如下:分词、去除停用词、计算tf/idf权重并为每行生成一权重项量、初步过滤、计算相似度去重、文本聚类、数据清理、结束。 目前,前三步的编程工作己完成。难点在后面。 ^_^,感觉越来越难,不过也很有成就感,毕竟是自己的作品嘛

正文抽取中阈值计算公式

下文是网站发布器的正文抽取所用到的原理,描述起来有些费劲,用公式写出来,做个备忘。 如何确定正文抽取中阈值的大小,用 小写 y 表示文本项,小写 z 表示非文本项,最佳阈值可以描述为一个文本项概率(p)与每项之前分布的关系。

网站发布器软件开发进度

最近忙于考研和开发软件,写文章、看文章的时间越来越少;自己研制的网站发布器做好了第一阶段的工作:从百度风云榜关键词订阅中获取相关网页内容,已经完成;下一步是开发网络爬虫的功能; 我的想法是从百度风云榜中获取关键词,解析后保存到硬盘中,再通过爬虫爬取网页内容,接着通过分词、分类、聚类、信息自动加工,生成原创文章;透过wordpress的xml-rpc协议远程发布到博客。 其实,不难看出如何生成原创文章,这点是最难的,目前的想法是,使用一个通用的web文本抽取工具(这个工具在我早期的研究中已经开发完毕,效果不必市面上已知的文本抽取工具差哦^_^,自豪一下)来获取正文,接着再使用“摘要”+“复述”的方法来生成原创;生成“摘要”不难,“复述”则很复杂;需要应用到的知识有“语义”、“语法”、“句法”,通过提炼句法模板,找到相同的语义的句子,最后匹配、替换。

    第 1 页,共 2 页12