谈到php采集,绝大多数朋友想到的是使用正则表达式方式。今天,笔者使用strtok来完成php采集功能!效果一样不错哦!

首先介绍下strtok:

//原型
string strtok ( string $str , string $token )
string strtok ( string $token )
//功能:分解字符串为一组标记串。s为要分解的字符串,delim为分隔符字符串。
/*说明:首次调用时,s必须指向要分解的字符串,随后调用要把s设成NULL。
        strtok在s中查找包含在delim中的字符并用NULL('\0')来替换,直到找遍整个字符串。
        返回指向下一个标记串。当没有标记串时则返回空字符NULL。
*/

html标签是以<tag></tag>形式出现的,如:

hello,world

我们以“<”作为strtok的分隔符,找出所有有效的html tag,那么得到的不就是我们想要的内容么?下面拿采集一个页面的title标签的内容作例子。