电话 Tel: 4000-828-500

坚持为客户提供有价值的服务和内容

您当前所在位置:首页 - SEO学院-公司新闻

百度蜘蛛类型判断,220以及123开头蜘蛛详解

发布时间:2020-10-11 10:10:47      点击次数:127


百度蜘蛛的探索方法

我们通过对网站爬虫日志追踪,将百度蜘蛛分为收录蜘蛛、首页收录蜘蛛、快照蜘蛛三大类。


首先来讲讲百度蜘蛛类型有哪几种

其实百度蜘蛛就是百度服务器派出来的爬虫,不同的服务器派出不同的蜘蛛,所以百度蜘蛛段的ip不同,当然不同ip也意味着蜘蛛功能不同,其中123开头的认为是降权蜘蛛,220开头的一般认为是权重蜘蛛。

可能很多人会问到底有木有降权蜘蛛

官方给出的答案是没有的

我们也认为蜘蛛没有权重高低之分

为什么分降权蜘蛛、权重蜘蛛之说?

如果蜘蛛有权重高低之说,难道百度一开始就知道你的网站质量吗,显然这是不可能的。


那么百度蜘蛛类型的意义究竟何在?

首先我们要明白百度爬虫是干什么的,就是把你页面扒下来,然后把数据拆分为标题、摘要、头图、正文等结构化数据,放到百度的数据库里面,提供给用户搜索。


但是网页数量以百亿计,每个页面都有快照备份是不现实的。

所以我们可以这样认为,百度蜘蛛应该有功能之分,并未高低权重之说。


分析1:内页爬取规律

新上的某个网页的爬取记录,我们可以看到,通常都是123开头的蜘蛛先行,然后220开头的蜘蛛后行。

然后隔1-2天,快照必会有更新。


分析2 :首页爬取规律

220爬虫后行,隔天快照更新。


分析3 :页面404后的百度爬取规律

123开头的爬虫爬取后,一般是2次404之后,不再派爬虫来爬了。


分析4: 劣质页面爬取规律

测试几个随机段落混合而成的内容,百度123开头蜘蛛抓了一次就再也不抓了。看来百度对随机拼凑的内容还是有识别的。


分析5: 百度站长主动推送后爬取规律

通过站长主动推送接口推送后,一般7天内就有123开头爬虫到访,如果内容质量较好,会有220开头爬虫二次到访,一般3天内必有快照。


规律1

123开头蜘蛛先行,对网页做初步分析,以便为后面正式到网页开展工作做准备。

规律2

220开头蜘蛛一般在123蜘蛛造访后,再次造访。

规律3

如果网页不过关, 220开头蜘蛛不会造访。

规律4

更新页面是220开头直接来造访。


上一条:2020年最新蜘蛛池强势来袭!秒收一切内容
下一条:百度刷参数快排原理【si刷法大全】

返回列表

您感兴趣的新闻
版权所有 ©企慧推 备案号: 苏ICP备20037583号-1