06Dec/09

搜索引擎的中式困境:谷歌,必应,百度,搜狗,搜搜及有道

中式的竞争,注重的是市场宣传,口碑,跟官方的合作,跟“主体思想”的一致性,这在内容,媒体相关的产业圈里是颠簸不破的真理。 从谷歌百度进入中国的历史来看,前者带着对中国市场的轻视,对GFW的迟疑(谷歌进入中国,遵循中国政府的互联网的内容过滤,其实已经违背了其“不作恶/Don’t be evil’的信条,其光辉形象已经在广大谷米心目中蒙上了阴影-谷歌的中国困境啊),对中文搜索技术的缺失,在相当长的时间里留下了市场的真空,这个局面一直到2005年正式成立谷歌中国公司才开始逐渐改观。 反观百度,自2001年10月发布搜索服务之时,明确专注于中文搜索,得到了民族情绪日渐上升的早期网民的绝对拥护-俺也是其中一员。到2005年上市的4年间,百度攻城掠地,不断提高技术功力,占领市场份额,一跃成为一家独大的中文搜索服务。 自从俺也开始了解了一些搜索技术,才慢慢了解到搜索其实也是体力活。爬虫去爬网页,是机器的体力活,热门词汇的分析和生成,也是一半机器一半人工体力活,搜索框的输入自动完成,也一半机器一半人工的体力活。基本原理都是系统做统计,人工做内容(关键词,热词)终审。 可以考察一下搜索第一牛人的谷歌,看看到底其在搜索技术上有什么绝活,以下摘自中文维基 他们开发了一个对网站之间的关系做精确分析的搜寻引擎,此搜索引擎的精确度胜于当时使用的基本搜索技术。当时项目被称作BackRub,因为系统会检查backlinks(反向链接),以评估站点的重要性。 Google搜索引擎以它简单,干净的页面设计和最有关的搜寻结果赢得了因特网使用者的认同。搜索页面里头的广告以关键字的形式出售给广告主。为了要使页面设计不变而且快速,广告以文本的形式出现。这种以关键字卖广告概念本来是Overture[1]开发的(即原来的Goto.com)。当大部份的网络公司倒下时,Google则一直安静地在稳步发展着并开始盈利。 2001年9月,Google的网页评级机制PageRank被授予了美国专利。专利正式地被颁发给斯坦福大学,Lawrence Page作为发明人列于文件中。[2] PR,唯一被谷歌提及的搜索技术,目前面临着逐步被淘汰的可能性(本博经过三个月的艰苦努力PR从0变到了3),以下摘自中文维基 2009年10月14日,Google员工苏珊·莫斯科(Susan Moskwa)确认该公司已自其网站管理员工具部分移除 PageRank。她对这部分移除的公告表示:“我们长久以来一直在告诫人们不应该过分注重 PageRank;很多网站站主似乎认为对他们来说得时时追踪的网站最重要指标,而这简直是个误解。”[2]然而在苏珊确认后两天, PageRank 仍旧在Google工具栏上显示。 搜索,核心技术有三个方面, 其一, 网络爬虫技术,抓取网页内容。其二:分析内容,确定抓取的网页的关键字或者元数据(meta data),并生成索引. 其三:客户搜索时, 根据关键字和元数据正确的识别客户的请求,同时输出合理的诸多结果的排序。 谷歌引以为傲的专利,仅仅只在第三步的搜索内容排序环节起作用,而且需要大量的人工干预去消除PR的作弊行为(谷歌的另一项专利, adwords/adsense更多的是商业创造的成分,跟搜索技术没有太多的相关)。从网民们的经验上看,PR技术似乎也并不理想。搜索结果过多,相关性太低是普遍的搜索体验。 可以想见,决定搜索技术命运的核心技术,在此之前,并未出现在任何一家。竞争的层面还处于角力的方式,花更多的服务器去爬网页,请更多的蓝领工程师更快的分析审核关键词,热词,内容。。。谁的人力更多,更勤奋,更受管理层重视,谁的搜索结果就会更实时,更准确一些。群众运动,是国人的强项,难怪百度会一鸣惊人,独占鳌头。等谷歌,搜狗明白过味来,市场,口碑皆为百度占有。曾经一时,搜狗拼音刚出现的时候,我顺带对比了一下搜狗的搜索和百度搜索(搜狗拼音应用了相当的搜索技术,也符合俺所定义的群众运动),80%的时间比百度要准确。最近感觉搜狗搜索质量急剧下降,应该是搜索部门人力减少了吧-我猜测应该是转移到搜狗拼音的部门继续搞群众运动去了-没有觉得最近搜狗词库的更新非常频繁么?仔细看我的上文,搜狗拼音也是搜索,更是群众运动!  跟百度断绝关系,大概有两年多。最终从搜狗转到了一圈回到了谷歌, google.com, 而不是被阉割了的google.cn。近期有了惊人的发现-谷歌搜索越来越实时,越精确了。 差不多一个月前,意外做了刚刚发布不到10分钟的博客标题的搜索,谷歌的搜索结果里第一个返回了我的博客。今天扩大了对比范围。针对刚发布的我的搜狗博客(搜狗应该占了先天优势)做标题搜索, 只有谷歌,中搜返回了我的博客,其余百度,搜狗,必应,有道,统统都不合格,没有返回俺的搜狗博客。Read More…

24Nov/09

俺能帮助改进豆瓣电台

在豆瓣电台小组发起了论战, 希望有豆瓣的人也能关注一下。不过从效果来看,觉醒的群众还是少数,大多数只知道追逐潮流,甚至都不知道自己需要什么-这个也是需要能力的。既然大众都没有需求,很大众的豆瓣没有反应也很正常了。原帖:http://www.douban.com/group/topic/8759703/ 2009-11-23 11:17:57 来自: 比布 童鞋们,这是我给豆瓣电台开的药方, 1.个人频道, 比如工作背景音乐,跳舞曲,伤感, 浪漫, 90台湾, 可以创建任意名目的频道,其内容根据用户初始选择的曲目来分析,并推荐。 2.精准分析曲目的特性,特性本身的诸多标签是一个开放体系,根据音乐行家的建议和听众的选择生成。 3.听电台过程中,随时搜索和添加曲目,让个人频道的口味更开放更精准。 4.个人趣味统计报告,了解自己所未曾了解的一面,让数据说话。 请同学们围观,板砖,讽刺,阿谀,但是不要谩骂。 x 向我的友邻推荐小组话题:俺能帮助改进豆瓣电台 摘要: 童鞋们,这是我给豆瓣电台开的药方, 1.个人频道, 比如工作背景音乐,… 推荐语: > 修改 1人推荐  2009-11-23 11:20:04 绵羊头 (小0特嗲了#¥%#……) 1.个人频道, 比如工作背景音乐,跳舞曲,伤感,Read More…

19Nov/09

HTC Hero/G3关机闹钟的变通方法和软件

棕色Hero G3入手一个月了,在机锋网泡了不少时间。本篇是其中的一个帖子来得。 去市场下载免费软件 hibernate. 这款软件要配合一款闹钟来使用,设置闹钟,并开启hibernate,用电量会降到低至正常的1%, 因为hibernate做了一下几件事(可设置) 1.关GPS 2.关radio,比如wifi,蓝牙,移动联通。。,其实就是帮你启动了飞行模式,这也是android关闭radio的唯一方式 3.关闭非关键程序进程。 这样基本上跟关机差不多了,踏踏实实搂着hero睡觉吧, 无辐射,无打扰,省电池。 11.19 更新一下。 根据楼下童鞋们的意见,飞行模式就可接受, 不必关闭多余的进程,搞得跟葛朗台似的省电,那么我就推荐一个闹钟软件,gentle alarm。试用了一个礼拜,一狠心2.99刀败了正版,免费版功能都有,只是周三罢工一天。  这个软件最大的特色是适应睡眠周期,设定闹钟时间后,会自动加一个音量很小的预闹钟,大概在正式闹钟的半个小时前。其原理是睡眠周期,在深度睡眠时,不容易醒,醒了也很困乏;在浅睡眠时,容易醒起床后也精神饱满。如果预闹钟响的时候处于深度睡眠,那么你根本就不会醒,如果处于浅睡眠,自然就醒了,而不必等到半个小时候处于深度睡眠时被惊醒。俺倒是从没有被预闹钟叫醒,有机会更改一下作息,看看效果吧。 GA还可以建立不同的profile,调整响铃长短,间隔长短,声音渐逝(fade in)长短,MP3,play list铃音,甚至还可以设置一个强制铃声(我用了电话铃声),一旦音乐不能将你叫醒,就来点能叫醒你的特别声音吧,。。。 也可以采取夜间模式,自动进入飞行模式,这样就不会被电邮和电话打扰,而且节约了电能。 当然,最重要的是,在你设定闹钟的时候,选择需要预闹钟还是如传统闹钟一样,这完全是你的生活方式所定。 如果market里不能买付费版,那么到这里来吧,http://m.mobitobi.com/en/android/gentlealarm.php,这里要花掉你2.99刀,而不是菜市里的一欧。

18Nov/09

翻译练习:愚蠢网络的崛起

David S. Isenberg在1997年5月的一个周末成文,同年6月发表在互联网,同年刊登在Internet Telephony的8月刊。 12年后再来回顾本文,仍然在文中的各个段落为作者的远见和睿智击节叫好。文中的观察和预见,不仅仅只用于传统电话网络和互联网的变迁,在今天的web和web应用的日新月异中也具有深远的意义。可以看作是知识社会演化的占卜书。 本文同发译言:http://www.yeeyan.com/articles/view/56852/67030 PDF版下载:http://www.choubb.com/pic/2009/The%20Rise%20of%20the%20Stupid%20Network%20ZH.pdf [本文还有一个新版本- 愚蠢网络的黎明 -作为封面故事发表于ACM Networker 2.1, February/March 1998.。] 为什么智能网络曾经是一个好主意,但再也不是了。本文是一个电话公司里的书呆子关于变化中的价值主张(Value Proposition)的另类远景分析 。 By David Isenberg – isen@isen.com – www.isen.com 简介: 腐朽的前提和持久心智模式 谈到设计的前提,只有在前提依然成立时做出的设计才是有效的设计。前提是通往功效的捷径,而不是相反。传统的电话公司的价值主张在今天的电话网络里体现为: 昂贵的,稀缺的电信基础设施为公众提供质优价高的的服务, 通话-人类的声音-占据了电信流量的绝大部分, 电路交换的语音通话是“通信技术”的核心,而且 电话公司完全控制其网络。 电话公司依然依据这些前提行事,尽管以下事实:Read More…