PageAdmin网站内容管理系统(CMS)交流论坛

注册

 

QQ登录

只需一步,快速开始

发新话题 回复该主题

求助xiyou版主,关于采集的问题 [复制链接]

1#
研究了两个小时,最后采集成功,可是不知道是哪里出错了,采集的只有标题没有内容
我采集的:http://www.ydlykj.com/index.aspx?menuid=5&type=article&lanmuid=11&language=cn
或者www.ydlykj.com 咨询中心  媒体报道
采集的时候一切都很正常,采集的页面是shtml的,原站的代码部分如下:
这个头文件
<link rel="stylesheet" href="/images/css.css">
<link rel="stylesheet" href="/images/css_new.css">
<script type="text/javascript" src="/js/Ajax.js"></script>
<script type="text/javascript" src="/js/common.js"></script>
</head>
文章部分:
  ·<a href='/html/201005/201005261606128zc.shtml' class="link8" target='_blank'>农村留守儿童教育调查:三成儿童有心理问题</a>    <span class='en'>2010-05-26</span><br>·<a href='/html/201005/20100526160511q0jr.shtml' class="link8" target='_blank'>2009年全国中职学校毕业生平均就业率95.99%</a>    <span class='en'>2010-05-26</span><br>·<a href='/html/201005/20100525145743r6xi.shtml' class="link8" target='_blank'>“满分作文”书籍90%系假冒 高考生别被误导</a>    <span class='en'>2010-05-25</span><br>·<a href='/html/201005/20100525145719b2ie.shtml' class="link8" target='_blank'>大学专业满意度调查:30%的新生对专业不满意</a>    <span class='en'>2010-05-25</span><br>
-------------------
因为肯定是采集内容出错了,我觉得是不是要改一下internal.js 函数呢?我的internal.js 如下:
var InnerPage,PageHtml,TheContent=document.getElementById("Infor_Content").innerHTML;
sp='{page}'
var A_TheContent=TheContent.split(sp);
function Build_InnerPage()
{
   document.write('<br><div id="internal_page" align="center"></div><br>');
   InnerPage=document.getElementById("internal_page");
   PageHtml="";
   for(i=0;i<A_TheContent.length;i++)
   {
     PageHtml+="<a href='javascript:ShowContent("+i+")' class='innerpage' id='ainnerpage'>"+(i+1)+"</a> ";
   }
  InnerPage.innerHTML=PageHtml;
}

function ShowContent(j)
{
var aobj=document.getElementsByName("ainnerpage");
document.getElementById("infor_content").innerHTML=A_TheContent[j];
for(i=0;i<aobj.length;i++)
  {
    aobj.style.fontWeight="normal";
    aobj.style.backgroundColor="#ffffff";
  }
aobj[j].style.fontWeight="bold";
aobj[j].style.backgroundColor="#eeeeee";
}

if(A_TheContent.length>1)
{
  Build_InnerPage();
  ShowContent(0);
}
------------
如果是的话改那一部分呢?为什么呢?
或者是采集配置里面的这一段需要改一下?
<Fields field="content">
    <name>内容</name>
    <type>text</type>
    <maxlength>0</maxlength>
    <c_rules></c_rules>
    <replace_rules></replace_rules>
  </Fields>

那个最大长度是不是要改一下?可是我在采集pa演示的时候是没有问题的。
内容采集规则是;
<div id="Infor_Content">{pa:collection}</div><script type="text/javascript" src="/js/internal_page.js">

实在没办法了~我刚开始学,什么也看不懂,希望斑竹大大救下我,感激不尽!!

我上传一下我采集对象的原代码
分享 转发
TOP
2#

<div id="Infor_Content">{pa:collection}</div><script type="text/javascript" src="/js/internal_page.js">

这个表示采集的目标网站源代码内容开头是<div id="Infor_Content">,结尾时</div><script type="text/javascript" src="/js/internal_page.js">

你要采集别人网站需要打开别人网站源代码找规则
TOP
3#

晕  这个文章采集这么难啊 哎 这个论坛 都没有高手指教一下
我都问了好多次都没有回答者
TOP
发新话题 回复该主题