找回密码
 注册
广告投放 虚位以待【阿里云】2核2G云新老同享 99元/年,续费同价做网站就用糖果主机-sugarhosts.comJtti.com-新加坡服务器,美国服务器,香港服务器
查看: 69|回复: 0

如何通过百度快照分析中文分词和百度排名

[复制链接]
发表于 2013 年 5 月 20 日 21:32:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。- C: u) O3 {1 ]# \* c) |0 b
5 p+ G! c5 N8 B' ?4 i$ j
  笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。; M* ^0 b' E+ {! R" i$ q* `* s6 L7 `
/ O! f9 k* o1 f
  之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。8 Z) X8 L; @, G2 T2 D5 f# B8 O% p5 ^

; }' d' d6 P. s1 K7 _  当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。& f9 K4 C! g* q: X: }8 j

# |) @3 I& P2 U; D/ V, T  百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。+ f1 [3 T0 d) {- m6 e1 s5 |- {
4 c. \9 u' n/ p8 B
  1、短关键词
$ _% j5 B* G9 ^: L; x( E( r
& o% m! A# Q) |- p) ?/ R" O& {" ]  以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。
/ ]  N$ O  V# E7 {7 a* s  m& D' o# o7 k5 v9 H9 F4 a7 j& E" U- w6 Z
  打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
  u6 L5 q3 i: C% t& q& e/ T: ^$ r: ?
" r) G$ H6 E6 O) M8 ^* O9 O  打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。7 F1 `9 H2 g3 P% v, S+ _: k+ V) O
; x8 d/ k. e- c3 J; p* O8 }3 J1 ~
  2、长尾关键词3 H6 G8 U7 ]. T4 `) B0 d
' Q8 d& z7 X" T# K  X6 J
  以“小说阅读网”为例,以下是首页搜索结果展示
8 ~: }7 n6 h2 ]: _: O& C+ f; c' G4 T, Q# `' G3 y& H
  打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。5 K  P. p) L# {  d- I0 L3 e4 s/ Y
0 L" l7 W7 }: o8 H! w4 W& p
  但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。; b4 I9 W$ G! W

  H  f8 @' W: N! N) s  搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。1 i7 R: B  ^; E
5 b" w3 r! x3 ], U  O: @. U6 A, `) `
  我们或许可以看出两个情况:
. r8 {0 G+ [2 I- ~+ _! `7 O. Z5 [0 O* ]
  1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
+ {1 k7 J7 c7 x% d0 A3 m1 [$ X2 Z$ m
  2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
4 m" p0 ?/ Q) H0 G4 a# m1 Q+ E# ^% Q2 X; Y
  百度快照颜色有何意义?
# ^3 n8 |3 R# D' D
9 [: l# z; a8 G  另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。! G* t+ L: N  Z4 z" S- B2 E
  w' E0 p  I+ u) N1 g* E5 E
  笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。- ^) |0 c9 S: R3 {- b3 M# o

7 o% @* g" c9 O  当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
: q! R& j- k0 p2 G- {$ ~" K9 p1 n" k0 v# w* A9 T& |5 f4 ^/ f
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|金光论坛

GMT+8, 2025 年 4 月 20 日 19:47 , Processed in 0.016741 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表