谈到php采集,绝大多数朋友想到的是使用正则表达式方式。今天,笔者使用strtok来完成php采集功能!效果一样不错哦!
首先介绍下strtok:
//原型 string strtok ( string $str , string $token ) string strtok ( string $token ) //功能:分解字符串为一组标记串。s为要分解的字符串,delim为分隔符字符串。 /*说明:首次调用时,s必须指向要分解的字符串,随后调用要把s设成NULL。 strtok在s中查找包含在delim中的字符并用NULL('\0')来替换,直到找遍整个字符串。 返回指向下一个标记串。当没有标记串时则返回空字符NULL。 */
html标签是以<tag></tag>形式出现的,如:
hello,world
我们以“<”作为strtok的分隔符,找出所有有效的html tag,那么得到的不就是我们想要的内容么?下面拿采集一个页面的title标签的内容作例子。



