快精灵印艺坊 您身边的文印专家
广州名片 深圳名片 会员卡 贵宾卡 印刷 设计教程
产品展示 在线订购 会员中心 产品模板 设计指南 在线编辑
 首页 名片设计   CorelDRAW   Illustrator   AuotoCAD   Painter   其他软件   Photoshop   Fireworks   Flash  

 » 彩色名片
 » PVC卡
 » 彩色磁性卡
 » 彩页/画册
 » 个性印务
 » 彩色不干胶
 » 明信片
   » 明信片
   » 彩色书签
   » 门挂
 » 其他产品与服务
   » 创业锦囊
   » 办公用品
     » 信封、信纸
     » 便签纸、斜面纸砖
     » 无碳复印纸
   » 海报
   » 大篇幅印刷
     » KT板
     » 海报
     » 横幅

Google简体中文搜索失灵的权威解释


搜索引擎 9238 2002.2

---1月25日,google开始28天一次的索引库例行更新。此后,网友很快发现google的简体中文搜索不灵了,某些常见词汇如“中国历史”、“生日快乐歌”、“华盛顿邮报”等,都搜不到结果或只能搜索到很少的相关性很差的结果。同时,也有网友发现,少数简朴要害词如“李白”、“历史”的搜索仍旧正常,而英文搜索也正常。网易、雅虎、www2等库更新比google晚,开始还能正常搜索,但一天之后,也变得和google相同失灵了。

---此后,网上开始出现各种预测,预测google封了中国用户ip的有之,预测google为了不与合作门户竞争而关闭主站的有之,预测google将要对用户收费的有之,预测google因政治原因被封杀的有之,预测有人捣鬼的有之,预测google因为例行更新而这样的有之。

---以上预测,统统都是错的。

---作为中国最痴迷最狂热的搜索兴趣者,作为以普及中文搜索为己任的人,作为屈指可数的可解释此现象的人,作为目前最了解此事,能做出最清晰解释的人,眼见网友开始被误导,搜索引擎 9238决定,给出简朴但准确的解释。

---google的问题,出在中文分词上。目前,google对用户输入的简体中文要害词,不做分词就进行检索,所以导致各种希奇现象。 ---要理解这个问题所在,要从中文搜索引擎 的特色说起。

---中文搜索引擎 ,跟英文搜索引擎 最大的区别是分词。因为中文的字与字之间是没有间隔的,人阅读的时候能自动辨别组合一个句子中的各个单字,看到的是有意义的词组。而计算机不是人,中文的单个字缺乏意义,所以要先由程序把中文词句切分成合理的字词单元。

---举例来说,这句话“第一门反后坐火炮”,人阅读时能自动分出其中的有意义单元,把它看做“第一门 反后坐 火炮”,对于计算机,这就是一个自动分词的步骤。中文搜索引擎 ,就是把所有网页上的文字,用分词程序预先切分好了,对于搜索引擎 来说,它并不熟悉网页上的一句话“第一门反后坐火炮”,它只知道,哪个网页中有“第一门”、“反后坐”、“火炮”这3个字词单元,你搜索其中任何一个字词单元(如“反后坐”)时,搜索引擎 就把这个网页取出来,并把所有含有“反后坐”这个字词单元的网页取出来,再按照某种算法排序,最终把搜索结果生成页面返回给用户。

---假如你把这句话 [第一门反后坐火炮] 输入搜索框检索,那么中文搜索引擎 也需要先把你这句话切成“第一门”、“反后坐”、“火炮”3个字词单元,然后去索引库里寻找含有这三个字词单元,而且这3个字词单元连在一起的网页,再按相关算法排序。

---而假如你输入 [第一门 反后坐 火炮] 三个字词单元,用组合要害词检索,那么中文搜索引擎 就去找出含有这三个字词单元的网页排序,但不再要求这三个字词单元必须相连。

---而假如搜索引擎 不对中文要害词作切词,只当做一个完整的字词单元去搜索,那么当你输入 [第一门反后坐火炮] 时,是搜不到任何结果的,因为搜索引擎 认为没有任何网页中含有“第一门反后坐火炮”这个字词单元,搜索引擎 只知道有的网页中含有连在一起的三个字词单元“第一门”、“反后坐”、“火炮”,或者只知道有连在一起的五个字词单元“第”、“一门”、“反”、“后坐”、“火炮”。
(分词的效果是一个徐徐进步的过程,目前并不完美,各家搜索引擎 也不同,有的搜索引擎 也可能把这句话分成“第”、“一门”、“反”、“后坐”、“火炮”五个字词单元)

---现在你明白google的怪现象了。因为google把所有输入的中文要害词只作为一个字词单元来搜索,但是在预先对网页做索引的时候已经对网页上含有的跟你输入要害词一样的文字作分词的,所以google认为,没有任何网页含有你输入的字词单元。除非,有些特别网页上的文字本身就是当做一个字词单元切分的,跟你输入的搜索要害词能对上,那就能搜出来。或者,你输入的本来就是最简朴的字词单元如[李白]、[历史]、[搜索],那么搜索结果仍旧是正常的。

---举例来说,要害词 [华盛顿邮报] ,google在做索引库时一般把它切分成3个字词单元“华盛顿”“邮”“报”,但也会把少数网页中的“华盛顿邮报”当做一个字词单元来切分。这样,当你搜索 [华盛顿邮报] 时,假如google没有切分,那么只能搜索出少数含有“华盛顿邮报”这个字词单元的网页。假如自动切分成“华盛顿”“邮”“报”再搜索,那么会搜索出所有连续含有“华盛顿”“邮”“报”这3个字词单元的网页,因为这原来是这么索引的,所以这会得到最准确的结果。

---但是现在google不分词,假如你自己先分好词再搜索,如搜索 [华盛顿 邮 报],那么搜索结果基本还是有的,只是会杂一点,多一点,多了一些“华盛顿”“邮”“报”这3个字词单元没连在一起的网页。

---你自己先分词再搜索,因为不再限制各字词单元相连,所以搜索出来的结果相关性视你用的要害词而定,可能很差,也可能很好(假如含有特别字词单元就会较好)。这种情况下,我琢磨出一个针对性的搜索技巧,就是使用英文双引号,把几个字词单元强行定义为词组来进行搜索。比如搜索 [舒迅],只得到两个无用结果,但搜索 [舒 迅],就得到几万条无关结果,这时你可以加英文双引号搜索如 ["舒 迅"]。搜索效果还是勉强可看的。
另外,再教你一个偷懒的方式,就是英文双引号可以只输前一半,效果也是相同的,如要害词["舒 迅"]和["舒 迅]的搜索效果是一样的。当然,假如你本来就想用组合要害词搜索如 [生日快乐 歌],那么现在自己要先分词成["生日 快乐" 歌],这时就不能省后半个双引号了,否则就成了要求“歌”这个字紧跟在“生日快乐”之后,搜索效果理论上就不如不强求它紧跟了。

---好,google简体中文搜索忽然失灵的直接原因和原理,大家都已清晰了,是没有对你输入的要害词分词。但是引发分词失灵的间接原因,就只有google公司自己知道了,可能是这次索引库更新中的误操作引起的,可能是某方面的疏忽引起的,也可能是某种新的代码或设置引起的,或者其它我们无法想像的原因导致。

---从技术上来说,这只是一个小case,我想google现在可能还不知道此事,假如它知道这个问题,一般来说很快就能恢复过来。有人已给过它email提醒此事了,但它收到email多,处理不及时,不知道什么时候能注重到此事,这是国外大公司的缺陷,海内用户沟通渠道不畅。

---从搜索引擎 的经营上来说,这是一个严峻过失,其严峻性几乎仅次于服务器当机了。因为它也导致合作伙伴雅虎和网易的网页搜索无法正常运行,很难想像雅虎这种把稳定性和品牌看得那么重的公司会原谅这种过失。

---对于google简体中文搜索的失灵,我既解释了原因和原理,我也介绍了勉强的解决方案――自己先分词再搜。当然,你自己分词是很累的,你要不断预测搜索引擎 的分词方式,只要有一点分得不对,你就搜不到满足的内容,即使完全分对了,也不能保证得到满足的搜索结果。比如上边提到的“华盛顿邮报”,假如你认为“邮报”很常见,自己用[华盛顿 邮报]来搜索,那还是没结果的,假如想把所有要害词都拆分成单字来搜索比如[搜 索 引 擎],那么搜索效果也和[搜索 引擎]、[搜索引擎 ]截然不同。值得一提的是,百度的中文搜索引擎 在过去一段时间默默进步,近来还上了网页快照,一般的中文搜索,效果是不错的,假如你现在不愿意自己先分词再用google搜,那么可以尝试另一个解决方案――用百度搜索www.baidu.com)。

注:本文所述观点,不代表本站观点.


返回类别: 教程
上一教程: 雅虎中国搜索启动新渠道 发起免费建站攻势
下一教程: 新浪Q2净营收4610万美元 净利润1000万美元

您可以阅读与"Google简体中文搜索失灵的权威解释 "相关的教程:
· 资本演绎中文搜索变身 Google效应波及中国
· 百度专注于中文搜索引擎 目前无意进军电子商务
· 自动分词与中文搜索引擎
· 中文搜索 百度在专注的沉醉中慢慢落伍?
· 慧聪变身“中国搜索”,中文搜索引擎战一触即发
    微笑服务 优质保证 索取样品