蜘蛛日志分析(如何查看蜘蛛日志)

生活百科 2年前 阅读:126 评论:0

如何查看蜘蛛日志

网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情,做为站长的你,如果是需要查看访问统计数据,那用51.la或者百度统计 工具就可以了,但是如果你想查看各搜索引擎的蜘蛛是否准时来爬行自己的网站,那就要学会自己查看网站日志文件了。结合我们自己的网站做为一个实例来做一个介绍:

首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,当然不同的服务器类型,日志文件的文件夹名称和我介绍的不一样,但没关系,日志文件的扩展名是log。

日志中蜘蛛的访问行为

进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的:

日志中蜘蛛的访问行为

好吧,我的服务器只保留最近三天的日志文件,真小气,我还用过一个国外的服务器,人家是按月记录,并且当月结束后会将当月的日志打包供下载,只要你不人为删除,该日志文件会永远存在,这才叫个性化,但是没办法,谁叫我们只能用国内的服务器。

OK,报怨了几句,随便下载一天的日志文件,用Windows文本工具打开该日志文件,会看到一堆酷似代码的字符,祝文件大小打开速度也不同:

日志中蜘蛛的访问行为

注意看有背景的这一小部分,我用CTRL+F搜索功能查找baiduspider,好吧,为什么要查找baiduspider,这里先普及一下关于搜索引擎蜘蛛的一点小知识,各大搜索引擎的蜘蛛都有名字:

百度的叫baiduspider;

谷歌的叫Googlebot;

微软的叫bingbot;

搜狐的叫Sogou web spider;

腾讯的叫Sosospider;

因为国内主要是以百度为优化对象,我们来看看关于百度蜘蛛爬行记录的信息分析,在日志记录中随便找一个百度蜘蛛的信息:

125.90.88.96 - - [07/Sep/2012:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)"

怎么解读这些信息呢?蜘蛛IP--【访问时间】“获取路径”HTTP反馈值200 反馈字节数5357 百度蜘蛛标记。

好吧,这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了5374个字节。我们再分析一条记录:

220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +)"

认真看获取路径这一项,因为我的网站是老域名,原来的主人被收录的路径/product/disp.php?id=93,百度蜘蛛同样爬行,结果我的 新网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动 — 请求的数据具有新的位置且更改是永久的。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除。现在 百度正在审核我的新站点,一天爬行只有23次,也很不错了的。

好了,大家是不是可以举一反三的学会看其它搜索引擎蜘蛛的爬行记录了呢?下次,笔者将重点再分享一下HTTP的反馈值,大家通过这个反馈值可以获悉自己网站的健康状态哦,非常重要。

当然,有朋友会说为什么不利用一些日志查看工具,人工手动察看费时费力,是的,有些不错的工具可以提供更便捷的操作,今天笔者所述内容旨在用最初级的方法教会大家学会察看自己网站的日志。希望以上内容能对你有点帮助。

百度蜘蛛爬行日志分析

Google的蜘蛛的名字:Googlebot

baidu的蜘蛛的名字:baiduspider

Yahoo的蜘蛛的名字:Yahoo Slurp

看了一看状态码,还没有发现它们的踪影哦……

百度蜘蛛是什么,常见百度爬虫有那些问题

简单理解,百度蜘蛛又名百度爬虫,主要的工作职能是抓取互联网上现有的URL,并对页面质量进行评估,给出基础性的判断。

通常百度蜘蛛抓取规则是:

种子URL-待抓取页面-提取URL-过滤重复URL-解析网页链接特征-进入链接总库-等待提取。

1、如何识别百度蜘蛛

快速识别百度蜘蛛的方式有两种:

① 网站a href=网址蜘蛛日志分析,可以通过识别百度蜘蛛UA,来判断蜘蛛来访记录,相对便捷的方式是利用a href=网址SEO软件/a去自动识别。关于百度UA的识别,你也可以查看官方文档:a href=网址

② CMS程序插件,自动嵌入识别百度爬虫,当蜘蛛来访的时候,它会记录相关访问轨迹。

2、百度蜘蛛收录网站规则有那些?

并不是每一个网站的蜘蛛来爬寻抓取就会被收录的,这样就会形成一个搜索引擎主要流程,这个流程主要分为,抓取、筛选、对比、索引最后就是释放,也技术展现出来的页面。

抓取:爬虫是根据网站URL连接来爬寻的,它的主要目的是抓取网站上所以文字连接,一层一层有规则的爬寻。

筛选:当抓取完成后,筛选这个步骤主要是筛选出垃圾文章,比如翻译、近义词替换、伪原创文章等,搜索引擎都能够识别出来,而是通过这一步骤识别。

对比:对比主要是实行百度的星火计划,保持文章的原创度。通常情况下,经过对比的步骤的时候,搜索引擎会对你站点进行下载,一来对比,二来创建快照,所以搜索引擎蜘蛛已经访问你的网站,所以网站日志中会有百度的IP。

索引:通过确定你网站没有问题的时候,才会对你网站创建索引,如果创建索引了,这也说明你的站点被收录了,有时候我们在百度搜索还是不出来,可能原因是还没有被释放出来,需要等待。

3、关于百度爬虫一些常见问题:

① 如何提高百度抓取频率,抓取频率暴涨是什么原因

早期,由于收录相对困难,大家非常重视百度抓取频率,但随着百度战略方向的调整,从目前来看,我们并不需要刻意追求抓取频率的提升,当然影响抓取频次的因素主要包括:网站速度、安全性、内容质量、社会影响力等内容。

如果你发现站点抓取频率突然暴涨,可能是因为:存在链接陷阱,蜘蛛不能很好抓取页面,或者内容质量过低,需要从新抓取,也可能是网站不稳定,遭遇负面SEO攻击。

② 如何判断,百度蜘蛛是否正常抓取

很多站长新站上线,总是所发布的文章不收录,于是担心百度爬虫是否可以正常抓取,这里官方提供两个简单的工具:

百度抓取诊断:

百度Robots.txt检测:

你可以根据这两个页面,检测网页的连通性,以及是否屏蔽了百度蜘蛛抓取。

③ 百度爬虫持续抓取,为什么百度快照不更新

快照长时间不更新并没有代表任何问题,你只需要关注是否网站流量突然下降,如果各方面指标都正常,蜘蛛频繁来访,只能代表你的页面质量较高,外部链接非常理想。

④ 网站防止侵权,禁止右键,百度蜘蛛是否可以识别内容

如果你在查看网页源代码的时候,可以很好的看到页面内容,理论上百度蜘蛛就是可以正常抓取页面的,这个你同样可以利用百度抓取诊断去解析一下看看。

⑤ 百度蜘蛛,真的有降权蜘蛛吗?

早期,很多SEO人员喜欢分析百度蜘蛛IP段,实际上官方已经明确表示,并没有说明哪些蜘蛛的爬行代表降权,所以这个问题不攻自破。

⑥屏蔽百度蜘蛛,还会收录吗?

常规来说屏蔽百度蜘蛛是没办法收录,虽然会收录首页,但是内页却不能收录的,就好比“淘宝”基本上都是屏蔽了百度蜘蛛,只有首页但是依然排名很好。

总结:很多市面上就会出现一个蜘蛛池这样的字眼呈现,这是一种并不好的一种变现的方式,搜外seo并不建议大家使用,上述仅供大家参考。

网友评论