好搜蜘蛛haosouspider的抓取策略与百度蜘蛛baiduspider抓取的区别


好搜蜘蛛haosouspider的抓取策略与百度蜘蛛baiduspider抓取的区别

昨天好搜在知新网站上线并提交URL一周之后开始抓取并收录了网站,对此空谷还写了一篇文章做一下记录分析:好搜蜘蛛haosouspider当天抓取当天收录,今天分析昨天的服务器日志发现好搜蜘蛛抓取了12次,发现好搜的抓取策略跟百度有一定的区别。下面看数据进行分析:
好搜蜘蛛抓取情况.jpg

以上数据为服务器日志数据
好搜网站管理员工具蜘蛛抓取数据.jpg

以上数据为好搜网站管理员工具蜘蛛抓取数据
以上数据是提取了2015.2.25日好搜蜘蛛对知新网站抓取的URL及数量,总共抓取了14次,抓取的时间是早上十点左右及晚上十一点左右,抓取的页面是首页,注册,登陆,发现页面以及最新的讨论页面。

从以上数据可以分析出来好搜蜘蛛初次抓取的策略非常明显,就是抓取首页以及出现在首页的URL,不过很明显,首页的URL好搜蜘蛛还没有完全抓取完毕,如SEO教程,SEO工具,话题,找人这几个页面没有还没被抓取,需要隔天再次分析好搜蜘蛛的后续抓取情况。单从抓取的数据来看,好搜蜘蛛抓取的页面基本是有价值的页面,因此还是比较高效的。

从以上数据也可以分析出来,haosouspider不抓取CSS以及JS,这跟百度的抓取策略有特别的差别,这之前空谷还写了一篇文章:服务器日志分析案例之:新站。百度每抓取一个页面都会解析这个页面的JS和CSS。至于抓取JS,和CSS有什么用,空谷还没找到百度官方的资料,因此就无法判断抓取这个抓取JS和CSS是否会影响到蜘蛛的高效抓取问题了。

不过google网站管理员工具的内容改版了之后有说明如果禁止google抓取JS和CSS会影响网页在搜索引擎中的排名,因为会影响结构的呈现。

这只是好搜蜘蛛的第二天抓取,后续说不定也会抓取JS和CSS,期待下次分析。
已邀请:

要回复问题请先登录注册