06Dec/09

搜索引擎的中式困境：谷歌，必应，百度，搜狗，搜搜及有道

2009/12/06软件SW&NETbaidu, bing, 百度, 语意搜索, 谷歌, google, livedash, sogou, soso, wolframalpha, youdao, 垂直搜索, 实时搜索, 必应, 搜狗, 搜索技术, 有道, 中搜choubb

中式的竞争，注重的是市场宣传，口碑，跟官方的合作，跟“主体思想”的一致性,这在内容，媒体相关的产业圈里是颠簸不破的真理。从谷歌百度进入中国的历史来看，前者带着对中国市场的轻视，对GFW的迟疑（谷歌进入中国，遵循中国政府的互联网的内容过滤，其实已经违背了其“不作恶/Don’t be evil’的信条，其光辉形象已经在广大谷米心目中蒙上了阴影-谷歌的中国困境啊），对中文搜索技术的缺失，在相当长的时间里留下了市场的真空，这个局面一直到2005年正式成立谷歌中国公司才开始逐渐改观。反观百度，自2001年10月发布搜索服务之时，明确专注于中文搜索，得到了民族情绪日渐上升的早期网民的绝对拥护-俺也是其中一员。到2005年上市的4年间，百度攻城掠地，不断提高技术功力，占领市场份额，一跃成为一家独大的中文搜索服务。自从俺也开始了解了一些搜索技术，才慢慢了解到搜索其实也是体力活。爬虫去爬网页，是机器的体力活，热门词汇的分析和生成，也是一半机器一半人工体力活，搜索框的输入自动完成，也一半机器一半人工的体力活。基本原理都是系统做统计，人工做内容（关键词，热词）终审。可以考察一下搜索第一牛人的谷歌，看看到底其在搜索技术上有什么绝活，以下摘自中文维基他们开发了一个对网站之间的关系做精确分析的搜寻引擎，此搜索引擎的精确度胜于当时使用的基本搜索技术。当时项目被称作BackRub，因为系统会检查backlinks（反向链接），以评估站点的重要性。 Google搜索引擎以它简单，干净的页面设计和最有关的搜寻结果赢得了因特网使用者的认同。搜索页面里头的广告以关键字的形式出售给广告主。为了要使页面设计不变而且快速，广告以文本的形式出现。这种以关键字卖广告概念本来是Overture[1]开发的（即原来的Goto.com）。当大部份的网络公司倒下时，Google则一直安静地在稳步发展着并开始盈利。 2001年9月，Google的网页评级机制PageRank被授予了美国专利。专利正式地被颁发给斯坦福大学，Lawrence Page作为发明人列于文件中。[2] PR，唯一被谷歌提及的搜索技术，目前面临着逐步被淘汰的可能性（本博经过三个月的艰苦努力PR从0变到了3），以下摘自中文维基 2009年10月14日，Google员工苏珊·莫斯科（Susan Moskwa）确认该公司已自其网站管理员工具部分移除 PageRank。她对这部分移除的公告表示：“我们长久以来一直在告诫人们不应该过分注重 PageRank；很多网站站主似乎认为对他们来说得时时追踪的网站最重要指标，而这简直是个误解。”[2]然而在苏珊确认后两天， PageRank 仍旧在Google工具栏上显示。搜索，核心技术有三个方面，其一，网络爬虫技术，抓取网页内容。其二：分析内容，确定抓取的网页的关键字或者元数据(meta data)，并生成索引. 其三：客户搜索时，根据关键字和元数据正确的识别客户的请求，同时输出合理的诸多结果的排序。谷歌引以为傲的专利，仅仅只在第三步的搜索内容排序环节起作用，而且需要大量的人工干预去消除PR的作弊行为（谷歌的另一项专利， adwords/adsense更多的是商业创造的成分，跟搜索技术没有太多的相关）。从网民们的经验上看，PR技术似乎也并不理想。搜索结果过多，相关性太低是普遍的搜索体验。可以想见，决定搜索技术命运的核心技术，在此之前，并未出现在任何一家。竞争的层面还处于角力的方式，花更多的服务器去爬网页，请更多的蓝领工程师更快的分析审核关键词，热词，内容。。。谁的人力更多，更勤奋，更受管理层重视，谁的搜索结果就会更实时，更准确一些。群众运动，是国人的强项，难怪百度会一鸣惊人，独占鳌头。等谷歌，搜狗明白过味来，市场，口碑皆为百度占有。曾经一时，搜狗拼音刚出现的时候，我顺带对比了一下搜狗的搜索和百度搜索（搜狗拼音应用了相当的搜索技术，也符合俺所定义的群众运动），80%的时间比百度要准确。最近感觉搜狗搜索质量急剧下降，应该是搜索部门人力减少了吧-我猜测应该是转移到搜狗拼音的部门继续搞群众运动去了-没有觉得最近搜狗词库的更新非常频繁么？仔细看我的上文，搜狗拼音也是搜索，更是群众运动！跟百度断绝关系，大概有两年多。最终从搜狗转到了一圈回到了谷歌， google.com, 而不是被阉割了的google.cn。近期有了惊人的发现-谷歌搜索越来越实时，越精确了。差不多一个月前，意外做了刚刚发布不到10分钟的博客标题的搜索，谷歌的搜索结果里第一个返回了我的博客。今天扩大了对比范围。针对刚发布的我的搜狗博客（搜狗应该占了先天优势）做标题搜索，只有谷歌，中搜返回了我的博客，其余百度，搜狗，必应，有道，统统都不合格,没有返回俺的搜狗博客。Read More…

Archives

Tag Archives: baidu

搜索引擎的中式困境：谷歌，必应，百度，搜狗，搜搜及有道