当前位置: 首页 > seo优化, 网站建设 > 正文

熊猫博客教你如何分析iis日志-解决百度蜘蛛不爬行内页的问题

熊猫博客从今年2月份博客就关闭了,今年10月多才重新上线的,百度以前收录的那么多都不复存在了。现在熊猫博客又换了一个域名:www.chnpanda.com ,众所周知用一个新域名来讨好百度蜘蛛是要付出很大努力的,由于我以前的域名还有两个月,我想是否可以从以前域名的收录权重什么的来转到新域名上,先解析了旧域名,收录也算快,刚上线就收录了几页,但是也就是那昙花一现,以前的爱到哪去了?我也就不想等了,反正到最后还是要转到新域名,然后我就直接解析绑定了熊猫博客的新域名。

也就是10几天的样子收录了主页,和几个关键词的页面,就是没有收录内页,我通过分析iis日志,原来原因在这里……


一、首先要找你的iis日志在哪里:

1.虚拟空间:通过FTP连接我们的虚拟空间,在虚拟空间里面找到一个logfiles的文件,里面存放的就是在虚拟主机上下载的iis日志,在有的空间里面有两个logfiles文件,一个是在根目录下,一个是在虚拟空间连接后直接就可以看到,一般情况下网站的iis日志都是在根目录下的logfiles里面。

2.虚拟主机(vps):在c:\windows\system32\LogFiles下。

二、那如何去分析IIS日志
例:127.0.0.1 – – [28/Sep/2010:07:15:11 -0700] “GET /index.html HTTP/1.1″ 200 12864 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”

分析过程:
客户端IP======127.0.0.1
日期=========28/Sep/2010
时间=========07:15:11
动作=========GET
URI资源==== ==/index.html(代表访问的资源是当前这个页面)
协议版本 ======HTTP/1.1
协议状态====== 200 (200表示抓取成功)
发送的字节数===12864(表示当前页面的大小)
”Baiduspider+(+http://www.baidu.com/search/spider.htm)”表示百度蜘蛛来抓取

一些常见的IIS状态代码为
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器暂时不可用

IIS状态码含义:
2xx 抓取成功

200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理

对Seoer来说,IIS访问日志是必须了解的SEO基础,不仅需要了解IIS日志状态码含义,而且还需要了解各大搜索引擎爬虫(蜘蛛Robot)名称。通过IIS日志我们可以了解到蜘蛛爬取情况及网站流量访问情况,所以,如果你是一个成功的seo人员,那你必须对于对于iis日志状态代码学会分析,知道蜘蛛什么时候来爬行,摸索蜘蛛的习惯。

上面的介绍不止局限百度的搜索引擎,可以看看“Baiduspider+(+http://www.baidu.com/search/spider.htm)” 就可以知道是那个搜索引擎了,下面是各个搜索引擎的姓名:

  1. 百度蛛蛛、baidu的蛛蛛的姓名:baiduspider
  2. Google的机器人、爬行动物、Google的蛛蛛的姓名:Googlebot
  3. 腾讯Soso的蛛蛛的姓名:Sosospider
  4. Yahoo的蛛蛛的姓名:Yahoo Slurp
  5. 搜狗的蛛蛛名字:sogou spider (Sogou+web+spider 网页蛛蛛)
  6. 有道的蛛蛛名字:YodaoBot
  7. Live综合引得蛛蛛:MSNBot

查看熊猫博客的iis日志就是一直爬虫重复着对http://www.chnpanda.com/sitemap_baidu.xml这个页面的访问,一直是304(304 未修改 — 未按预期修改文档),看来是因为熊猫博客更新的不勤,爬虫一直在等待着我呢,我觉得要是在不更新他应该是不会再爱我了。


本文固定链接: http://www.chnpanda.com/918.html | 熊猫博客 | 转载请注明出处,谢谢合作!

本文关键字: ,

熊猫博客教你如何分析iis日志-解决百度蜘蛛不爬行内页的问题:等您坐沙发呢!

发表评论

亲,不支持纯字母、符号评论哦~