用Robots协议引导蜘蛛抓取页面

佚名 2022-08-13 01:36

Robots该协议是根目录下的协议,也是蜘蛛爬行网站时需要访问的第一个文件。通过解释Robots蜘蛛可以知道哪些页面可以爬行,哪些页面不能爬行。一般来说,网站可以开发给蜘蛛抓取,一些不允许抓取的页面或频道只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但在实际操作中,可能会面临更复杂的情况,比如全站已经在了HTTPS但是有些页面需要蜘蛛爬行。我该怎么办?有以下解决方案。【网站优化

(1)复制一份到HTTP下。

(2)使用user-agent判断来访者,引导蜘蛛到达HTTP页面。

关于Robots详细说明文件如下。

(1)特定页面不需要蜘蛛抓取,可以进行Disallow。

(2)某种集中页面有共同点URL可实现批量禁止抓取功能。禁止批量操作时,需要避免意外伤害,即有相同的URL特征的功能可能不在禁止的目的无意中禁止的。

同类特征URL一个特殊的应用程序是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面是动态页面,从SEO从角度看,这些动态页面都是批量生成相应的静态页面,如下。

http://www.abc.com/?id=1

http://www.abc.com/?id=2

...

(批量生成如下)

http://www.abc.com/ 1.html

http://www.abc.com/2.html

...

如果动态页面和相应的静态页面被蜘蛛同时捕获,然后网站上有很多重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL例如,在Robots以下内容写在文件中。可以通过Robots功能,统一禁止动态URL例如,在Robots以下内容写在文件中。

Disallow : /*?*

在抓取方面,蜘蛛会根据实际情况调整网站的抓取频率,即分配抓取配额,每天定量抓取网站内容。定量一词意味着它是有限的——如果一个门户网站一次提交10万条URL,这并不意味着蜘蛛很快就会收回10万条数据,因此,必须耐心地跟踪网站上搜索蜘蛛的日常爬行和收录。

以上是用Robots协议引导蜘蛛抓取页面的全部内容,仅供站长朋友互动交流学习,SEO优化是一个需要坚持的过程,希望大家共同进步。

下一篇: 用白话解释网络营销和网络推广的区别
上一篇: 知道这几点,修改标题就不容易降权了!
相关文章
返回顶部小火箭