星联网络专注帝国CMS二次功能插件开发-精品网站模板站长代码素材

  • 最近更新
  • 模板:33
  • 记录:12640|
  • 插件:52|
  • 工具:4|
  • 代码:8|
  • 评论:0

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

前言

本文主要讲解《织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法》的详细内容

今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

表现:

常规的文章列表文章URL应该是 <a href="https://www.dede58.com/URL.html">才对,而该站处理成了<a href="//www.dede58.com/URL.html">,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。

解决方法:

在网址获取选项里点选“手动填写链接地址规则”,

右侧脚本规则填写【a class="item" href="[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。

实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

结果:

以上操作后点获取网址测试正确,从采集,入库等都OK了。

PS:

这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。

本网刊登的文章均仅代表作者个人观点,并不代表本网立场。文中的论述和观点,敬请读者注意判断。

本文地址:http://www.xlkjgs.com/notes/web/7652.html

以上内容由本站整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

星联网络

星联网络是中国最具实战的互联网创业者的知识服务商,这里有互联网行业动态,网络推广,SEO优化,SEM优化,ESC配置,行业经验分型,互联网项目,微信营销、淘宝客赚钱、新媒体营销、京东运营、跨境电商等众多互联网营销知识分享

站长运营站长必备网站运营之道才能长久发展