产品使用及交流论坛

注册

 

QQ登录

只需一步,快速开始

发新话题 回复该主题

采集规则怎么写? [复制链接]

1#
http://www.pm8.cn/news/   这个网站的采集规则怎么写啊,求助大神们
比如“行业动态”,“公司新闻”,“设备科技”,“分析预测”,“政策法规”
小弟在此谢过了。
分享 转发
TOP
2#

http://www.sct-jw.com
用户名和密码都是默认的。求大神帮忙设置一下。谢过了。
TOP
3#

没人帮忙么??  
TOP
4#

TOP
5#

正常情况下,可能没人免费帮忙,除非真有活雷锋。
TOP
6#

你都不发文章拿什么来采集,那只是一个栏目,在你建立好的栏目下发文就可以了呀,pageadmin是现成的还要怎么写?
TOP
7#

简单给你个思路,这个网站的采集规则不难写,你点要采集的那个分类的更多,会进入到一个列表页面,这页面的地址是唯一的而且也是有规律的,分析下里面的代码规律,就可以写出相应的采集规则了。
TOP
8#

设置了一个,采集回来时空白的,不知道怎么调整
TOP
9#




TOP
10#

这样肯定采集到是空的咯,没有任何正则表达式。先看下页面最下面的采集说明吧:如采集标题格式为:<title>(?<content>.+)</title> 其中(?<content>.+)为要采集的内容正则,其中?<content>不能修改,其他部分更具实际需要修改,下面列举几个常用正则表达式:
数值:(?<content>\d+);不包含”<>“符号:(?<content>[^<>]*),匹配任意空白字符:\s*,采集内容的开始部分和结束如果包含特殊字符,必须用”\“进行转义。
TOP
发新话题 回复该主题