yrs10733 - 2010/5/26 23:29:00
研究了两个小时,最后采集成功,可是不知道是哪里出错了,采集的只有标题没有内容
我采集的:http://www.ydlykj.com/index.aspx?menuid=5&type=article&lanmuid=11&language=cn
或者www.ydlykj.com 咨询中心 媒体报道
采集的时候一切都很正常,采集的页面是shtml的,原站的代码部分如下:
这个头文件
<link rel="stylesheet" href="/images/css.css">
<link rel="stylesheet" href="/images/css_new.css">
<script type="text/javascript" src="/js/Ajax.js"></script>
<script type="text/javascript" src="/js/common.js"></script>
</head>
文章部分:
·<a href='/html/201005/201005261606128zc.shtml' class="link8" target='_blank'>农村留守儿童教育调查:三成儿童有心理问题</a> <span class='en'>2010-05-26</span><br>·<a href='/html/201005/20100526160511q0jr.shtml' class="link8" target='_blank'>2009年全国中职学校毕业生平均就业率95.99%</a> <span class='en'>2010-05-26</span><br>·<a href='/html/201005/20100525145743r6xi.shtml' class="link8" target='_blank'>“满分作文”书籍90%系假冒 高考生别被误导</a> <span class='en'>2010-05-25</span><br>·<a href='/html/201005/20100525145719b2ie.shtml' class="link8" target='_blank'>大学专业满意度调查:30%的新生对专业不满意</a> <span class='en'>2010-05-25</span><br>
-------------------
因为肯定是采集内容出错了,我觉得是不是要改一下internal.js 函数呢?我的internal.js 如下:
var InnerPage,PageHtml,TheContent=document.getElementById("Infor_Content").innerHTML;
sp='{page}'
var A_TheContent=TheContent.split(sp);
function Build_InnerPage()
{
document.write('<br><div id="internal_page" align="center"></div><br>');
InnerPage=document.getElementById("internal_page");
PageHtml="";
for(i=0;i<A_TheContent.length;i++)
{
PageHtml+="<a href='javascript:ShowContent("+i+")' class='innerpage' id='ainnerpage'>"+(i+1)+"</a> ";
}
InnerPage.innerHTML=PageHtml;
}
function ShowContent(j)
{
var aobj=document.getElementsByName("ainnerpage");
document.getElementById("infor_content").innerHTML=A_TheContent[j];
for(i=0;i<aobj.length;i++)
{
aobj.style.fontWeight="normal";
aobj.style.backgroundColor="#ffffff";
}
aobj[j].style.fontWeight="bold";
aobj[j].style.backgroundColor="#eeeeee";
}
if(A_TheContent.length>1)
{
Build_InnerPage();
ShowContent(0);
}
------------
如果是的话改那一部分呢?为什么呢?
或者是采集配置里面的这一段需要改一下?
<Fields field="content">
<name>内容</name>
<type>text</type>
<maxlength>0</maxlength>
<c_rules></c_rules>
<replace_rules></replace_rules>
</Fields>
那个最大长度是不是要改一下?可是我在采集pa演示的时候是没有问题的。
内容采集规则是;
<div id="Infor_Content">{pa:collection}</div><script type="text/javascript" src="/js/internal_page.js">
实在没办法了~我刚开始学,什么也看不懂,希望斑竹大大救下我,感激不尽!!我上传一下我采集对象的原代码
xiyou - 2010/5/27 9:24:00
<div id="Infor_Content">{pa:collection}</div><script type="text/javascript" src="/js/internal_page.js">
这个表示采集的目标网站源代码内容开头是<div id="Infor_Content">,结尾时</div><script type="text/javascript" src="/js/internal_page.js">
你要采集别人网站需要打开别人网站源代码找规则
小刚时代 - 2010/9/16 14:31:00
晕 这个文章采集这么难啊 哎 这个论坛 都没有高手指教一下
我都问了好多次都没有回答者