joyan - 2015/6/3 14:02:59
http://www.pm8.cn/news/ 这个网站的采集规则怎么写啊,求助大神们
比如“行业动态”,“公司新闻”,“设备科技”,“分析预测”,“政策法规”
小弟在此谢过了。
joyan - 2015/6/3 14:09:34
http://www.sct-jw.com用户名和密码都是默认的。求大神帮忙设置一下。谢过了。
joyan - 2015/6/3 15:58:22
没人帮忙么?? :t(:t(:t(:t(:t(:t(
scstjcy - 2015/6/4 9:06:37
正常情况下,可能没人免费帮忙,除非真有活雷锋。
hmoobzs - 2015/6/4 11:08:31
你都不发文章拿什么来采集,那只是一个栏目,在你建立好的栏目下发文就可以了呀,pageadmin是现成的还要怎么写?
scstjcy - 2015/6/4 11:33:36
简单给你个思路,这个网站的采集规则不难写,你点要采集的那个分类的更多,会进入到一个列表页面,这页面的地址是唯一的而且也是有规律的,分析下里面的代码规律,就可以写出相应的采集规则了。
joyan - 2015/6/4 12:57:41
设置了一个,采集回来时空白的,不知道怎么调整
joyan - 2015/6/4 13:01:56
scstjcy - 2015/6/4 14:09:18
这样肯定采集到是空的咯,没有任何正则表达式。先看下页面最下面的采集说明吧:如采集标题格式为:<title>(?<content>.+)</title> 其中(?<content>.+)为要采集的内容正则,其中?<content>不能修改,其他部分更具实际需要修改,下面列举几个常用正则表达式:
数值:(?<content>\d+);不包含”<>“符号:(?<content>[^<>]*),匹配任意空白字符:\s*,采集内容的开始部分和结束如果包含特殊字符,必须用”\“进行转义。