|
楼主 |
发表于 2013 年 8 月 22 日 11:26:45
|
显示全部楼层
今天我们仍用自己的网站服务器日志,教大家清晰掌握服务器与蜘蛛是怎么互动的,这些都是日志中不太明显的信息,需要你细心的去观察的。新站起用被使用过的老域名,反而没有直接用没有被使用过的新域名收录来得快,最近上线的这个新站,因为域名选取的原因,必须使用被使用过的老域名,上线已经9天, 仍没有快照与收录,但我们是不是就应该要选择放弃了呢?
1 C4 O* s; k, R0 e) t+ }6 V" N) R: @: _. V9 }+ ?+ h
好吧,我们仍拿出几条蜘蛛爬行记录来分析:8 K% T9 q, T' O( i* b/ f
# w9 N1 V: }+ Z6 J" a 123.125.71.116 - - [10/Sep/2012:05:41:23 +0800] "GET / HTTP/1.1" 200 5858 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)9 j/ ]2 O+ {0 _# h/ I# x% `
. D2 `; ~1 j' Y- W% g; N# _0 ]: M2 R% { 通过上一次的讲解,我们知道IP为123.125.71.116的蜘蛛,在2012年9月10日凌晨05点41分23秒的时候,爬行了我们首页信息,HTTP返回状态值200,爬行字节数5858。4 y6 r6 w0 O/ N& H" l. L% c
* f' K# `& G3 F' f- F% t
今天我们要重点讲解的就是这个HTTP返回状态值,什么是返回状态值?都有哪些返回状态值?它们都分别代表什么意思?: A: H* @; I; l X: i9 Z7 u% N
5 z7 w2 g, \& v. ?
什么是HTTP返回状态值呢?当用户或搜索引擎向网站服务器发出浏览请求的时候,服务器返回的HTTP数据流中头信息中的状态码,它是一种服务器与访问者交互的语言。
& T2 d- K9 X5 D( W# w$ | ^4 a
' m- {* n7 I2 p( T* ^, \3 i) J. z 都有哪些返回状态值呢?返回状态值有很多,根据其含义,以1开头的返回值表示临时响应并需要请求者继续执行操作。以2开头的返回值表示成功处理了请 求。以3开头的返回值要求完成请求需要进一步操作,通常这些状态码用来重定向。以4开头的返回值表示请求可能出错,妨碍了服务器的处理。以5开头的返回值 表示服务器在处理请求时发生内部错误,这些错误可能是服务器本身的错误,而不是请求出错。* R, ]0 h" [9 a. E7 }
! i9 P* v; P8 M) \/ t2 z 好吧,纯粹的理论让人看得是不是有点头晕了,我们下面用实例来分析一下常见的返回状态值都有哪些!
- [) q, C3 \+ ^4 b
6 }3 ~7 l, b( C' e4 m 背景:我们分析的这个网站是老域名,之前被人用过,存在搜索引擎收录数据,现在域名被我用来重新建站。
; j, F C1 p0 K m& W; _3 q0 e. R }* u7 R6 |
我们来几条记录来看一看:% G- i$ X) w: N5 Q* M. f- L
; ?& H9 _: S$ \7 F4 w: Z
123.125.71.98 - - [10/Sep/2012:01:02:33 +0800] "GET /news/disp.php?id=302 HTTP/1.1" 404 1107 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
! a7 H+ ^7 X3 n ~6 Z
- h* a# v; m8 ~% y1 x- P 这条记录HTTP返回状态值是404,原因是因为百度蜘蛛爬行了一条本网站根本不存在的路径,HTTP返回404代表:服务器找不到请求的网页。
# y q, ~- S: \% u8 @" K* W- L
" c5 E% b8 s7 a; _+ ]) m 123.125.71.116 - - [10/Sep/2012:05:41:23 +0800] "GET / HTTP/1.1" 200 5858 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)+ @; Y4 G1 |; M+ n4 \ D
. a: O, y! R* v* @; J% N8 ~
这条记录HTTP返回状态值是200,原因是因为百度蜘蛛爬行了真实存在的网站首页,HTTP返回200代表:服务器已经成功处理了请求。6 P! ]1 Z9 ~. }
" C. g$ I2 `% Q0 H7 u$ E. h 220.181.51.113 - - [10/Sep/2012:08:44:22 +0800] "GET /product/disp.php?id=85 HTTP/1.1" 301 250 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)) R- L, h3 |; L6 L4 s* O( e
" O$ W( I) x/ Z0 ? h* S l, O
这条记录HTTP返回状态值是301,原因是因为百度蜘蛛爬行了在网站中不存在的文件路径,HTTP返回301代表:请求的网页已永久移动到新位置。
9 Q! T7 S# X" e; w8 C5 }9 c! P: J t' S0 @, J1 v% e, c6 ?8 {' N
HTTP返回状态值还有很多,如果你遇到其它的可以随时百度一下就能找到它代表的意思。本文的目的是希望通过我们网站的文章,帮助到其他和我们遇到同样问题的人。目前本文新上线的网站大量存在HTTP返回状态404,主要原因是老域名存在使用情况,百度收录数据库中存在大量原有收录数据,现在百度蜘蛛仍按原收录文章路径进行爬行,导致HTTP返回状态值出现404码,根据笔者的经验,此时新站处于百度审核期,只有通过百度一个月到三个月的审核期,收录数据才能得到释放,此时的404应该越多越好,蜘蛛爬行不通,自然会将该条原收录数据删掉,只是这样一来会延长新站的审核通过周期。% C; Y3 D8 D9 O3 N, M
6 m" _. u9 o$ g: W2 s( ~$ r1 \ 新站起用被使用过的老域名,就会遇到像我一样的情况,但是怎么观察隐藏在日志的访问秘密,是做为站长的你必须要学会的。只有这样,才能让你看到希望,只有这样,才能让你有坚持的动力,只有这样,才能让你不再疑惑!网站优化 |
|