产品使用及交流论坛

注册

 

QQ登录

只需一步,快速开始

发新话题 回复该主题

关于文章采集!!!!!!!!!!!! [复制链接]

1#
例如这个网址的文章:http://www.babyschool.com.cn/info/list_27.html

要采集这个页面的文章列表:
1、在后台“采集节点管理”里,规则列表网址是不是就填写这个地址?
2、“列表开始html”和“列表结束html”分别是不是<ul class="txtlist"></ul>
3、网址规则必须包含info/detail6

请版主或者PA高人指点下,谢谢谢!!
分享 转发
TOP
2#

开头很结尾都必须是不重复的标签才可以
TOP
3#

请大师明示??
TOP
4#

这个文章采集 怎么弄啊
我都没有采集成功过
我试了好多方法
有谁做成功了 实例一下 谢谢啊
TOP
5#

我也没有成功过,官方也没有教程。。。
TOP
6#

该用户帖子内容已被屏蔽
TOP
7#

采集教程是空的
TOP
8#

采集模块总是出错,不知道什么原因
TOP
9#

求大神和版主指导,为什么 标题采集不到  采集到的内容乱码,哭瞎~标题采集的正则表达式<title>(?<content>.+)</title>和内容的正则表达式<h1 class="title">(?<content>.+)<span class="bds_more">,难道标题的title标签的位置也是要自定义吗
TOP
10#

乱码一般是因为你目标网站编码选择错误,你弄清楚目标网站是gb2312还是utf8的
TOP
11#

谢谢版主

[b]回复 [url=http://bbs.pageadmin.net/showtopic-5043.aspx#133704]10楼[color=Olive]xiyou[/color]的帖子[/url][/b]

确实是目标网站编码选择错误了,乱码的问题已经解决了,谢谢
TOP
发新话题 回复该主题