如何分析单个蜘蛛的抓取情况


如何分析单个蜘蛛的抓取情况

当我们要分析网站的收录情况的时候,首先要分析的就是网页是否被蜘蛛抓取了,如果网页没有被蜘蛛抓取过,那就谈不上收录,关于如何提升蜘蛛的抓取可以到站长平台提交sitemap

那么我们怎么知道网页是否被蜘蛛抓取了呢,这时候就需要分析网站的服务器日志查看单个蜘蛛的抓取情况,比如如果我们需要了解好搜的收录情况,那么我们就要分析好搜蜘蛛的抓取情况。

在分析服务器日志的时候由于每天的服务器日志比较长,大型网站每天的日志甚至达到几G以上,但是用TXT打开就很久,不用说一行行的查看了。就算是1M的的服务器日志也包含着很多的内容如不仅仅是一个蜘蛛的抓取还有百度,google,好搜,一淘,神马的蜘蛛,还有用户的浏览器的请求,如果你有对网站的速度进行监控,那么服务器日志也记录了第三方网站监控请求页面的日志,反正服务器日志是非常多而杂乱的,这时候我们需要借助工具来提取某个蜘蛛的抓取情况,这样就比较清晰了,同时也能从中找出规律。

下面空谷用光年日志分析系统(可以到这个网站下载http://www.duote.com/soft/52686.html)来一步步进行演示。

第一步:点击光年日志分析系统应用程序
光年日志分析工具.png

第二步:点击日志分析拆分工具
日志分析拆分工具.png

第三步:点击添加需要拆分的日志
添加需要拆分的日志.png

第四步:点击添加条件
这里的条件有很多中,有日期,时间,IP,URL,用户名,代理人agent等条件,有时候我们需要分析某个用户的行为只需要提取该用户的IP即可,有时候我们为了分析某个单独的页面,只需要提取URL即可,这里我们是需要提取某个蜘蛛,其字段是agent,叫做代理人程序,用来区分不同的蜘蛛,如果我们要提取的是百度就需要输入百度蜘蛛 baiduspider,这里我们分析的是好搜的蜘蛛,需要输入haosouspider,每个搜索引擎有自己独立命名的蜘蛛名字,可以到他们的官方了解就能知道。
添加条件.png

第五步:点击保存路径,点击下一步就分析完毕
保存路径.png

第六部:分析后会有两个文件,下面命名的文件就是目标文件,大家可以下载一个notepad++文本编辑器来打开,这个比微软自带的TXT好用多了。
目标文件.png

最后:提取后的日志
提取后的日志.png

这个是知新社区的好搜2015.3.2日的抓取情况,比较整齐,临晨5点钟开始频繁抓取,这之前空谷也写了一篇专门介绍好搜蜘蛛的抓取情况的文章:好搜蜘蛛haosouspider的抓取效率令人叹为观止
已邀请:

chalisli - 一万小时定律

赞同来自:


很详细。分析蜘蛛,了解蜘蛛行为这是最好的方法了。没有之一。经常对蜘蛛进行分析,会对蜘蛛的抓取行为非常的敏感,会建立一种经验,知道蜘蛛喜欢抓取什么样的URL,也知道蜘蛛喜欢在哪里抓取,这种经验会在我们进行日常SEO过程中有潜移默化的帮助,同时我们也能够对有进行SEO的网站有敏锐的判断能力。也能容易判断网站哪些地方会阻碍蜘蛛的抓取,这些经验都是经常性的和蜘蛛打交道所建立起来的。和蜘蛛交朋友,更有利于我们开始SEO。

要回复问题请先登录注册