21Feb/10

搜索技术在知识库中的应用

几个月前去四大银行之一交流。我们作为搜索技术提供商参与了客服中心方案的讨论,旨在提供web渠道的自助服务。 两次交流后,银行一方问了很多知识库的问题-原来项目中的重头之一是如何修订甚至重建目前已有的知识库-分类混乱,错误多多,更让x行头痛的是多条知识存在一个doc或xls的文档里,如何找到知识,并精确定位,都是传统知识库难以解决的问题,不是么, 面对一个或数个海量知识库, 你有足够的金钱和人力重新修订该知识库么? 还好,俺们公司提供左图的知识库自我学习的机制。前提是有客服机制的系统。当在线知识库查询得不到满足时,系统可以将查询请求转移到客服,客服找到合适的答案,推送回给客户。我们的系统则负责在客户线上搜索的模型和客服推送回的修正的知识建立新的对应。当下一个客户进行同样的搜索时,搜索引擎返回的已经是经由客服更新的知识了。 这样的好处是,客户查询越频繁的知识,被修订的越早。根据power law的定义,应该80%的客户查询都集中在20%的知识上。其次, 知识库的修订跟客服流程相结合,而无需额外的系统和人工。其三,除非新增知识,错误知识的修订并不改变知识库的任何数据,只是改变搜索引擎的索引到新的文档ID或链接。当你有一个海量知识库的时候,以传统技术解决以上三点的工作量可能是你完全不敢想象的。 当让除了上述三点, x行对多数据源的支持也很感兴趣-搜索引擎天生支持多种多个数据源的。这样可以免除了知识库合并的天文数量级的工作量。 大中型企业经过多年的IT建设后,存在各种IT系统,如OA、HR、ERP、CRM、财务系统等,这些系统因为建设时期、项目的不同,形成了一个个数据孤岛。而客户的要求经常要查询多个IT系统,在界面各异,逻辑各异的数据孤岛中寻找相关的内容,基本上成了mission impossible。如何检索,分析和利用分散在不同系统, 不同数据格式的大量已有数据去解决问题, 变成了企业知本能力和行动力的基础。 听起来很玄妙?www.splunk.com就是一个典型的例子。假如你是x电子银行,早上10:30多个客户投诉转账不可用了,你是公司的IT经理,第一反应什么?打电话找集成商和供应商吧。有了 Splunk,可能第一反应是查看splunk并做几个搜索。Splunk 本质就是搜索引擎,将你的IT所有系统的性能,维护,安全等等数据都一网搜尽,不论是底层的数据交换机,路由器,OS,服务器,应用服务器,数据库,web服务器,所有的系统的监测数据和log都为splunk所用。Splunk 将所有的数据进行索引和分类,并提供dashboard,报表等高级功能。所有相关电子银行的异常都将被splunk在一个列表里反映出来, 无论它是防火墙, 路由器, OS, 应用服务器还是数据库等等。 Splunk就是知本经济在IT中的典型应用, 那么你的工作中的知本应用是什么呢?

25Jan/10

中国,Google,谷歌,谷歌中国,困境,迷局。。。

本段写于20191105, 差不多本帖写完后10年. 再回顾本文, 感觉当时还是蛮热血的, 将人类的希望寄托于谷歌. 呵呵, 现在对人类都不寄托希望了, 唯一的希望就是希望大家互相搞的时候不要太残忍, 也不要毁掉所有-人和自然 . Nov. 5, 2019 原本就千头万绪的超级公司-流氓国家案,又跳进来一个超级流氓国家, 变成了最经典的三角政治关系。原本期望能尽快得到答案的想法, 现在看起来太天真了, too naive!不是么? 自一月十三日起(谷歌博客发布于美国时间的一月十二日), 突然有一种振奋人心的感觉, 这种感觉似乎只有在89年才有过,热血奔涌,每天就像一个节日,每一刻都期待着发生激动人心的事情。谷歌退出中国也变成了一件激动人心的事情,这事情本身而言着实可悲。 一个血气方刚,朝气蓬勃的异国青年才俊,不堪中国陈腐的政治思维, 封建的官僚体系, 誓死捍卫谷歌的座右铭“不作恶, do not eveil”。我等草民颇能体会到谷歌的清风定能改变旧有的世界,旧有的思维。这一声 “我不跟你玩儿了”,其实是向全球宣判了东方古老帝国的死刑。草民能不热血沸腾么!?喜中悲来, 俺们自家的事情,自家人没人管, 得要一个黄毛蓝眼睛的外国小伙子来开头,华族难道真的血气奄奄了么? 我始终相信冥冥之中,谷歌是上天派来改造世界的一种特殊力量, 是一个没有臣民的超级帝国,Read More…

12Jan/10

阿凡达/Avatar的互联网解读

自从在wired的RSS Feed里不断看到Avatar的消息,无论围绕卡梅隆或者片场花絮如何传奇–记得有一则是卡梅隆重金聘请南加州大学的两位教授, 一位帮助其设计了pandora的全套语言, 另一位似乎是设计了环境, 在我的脑海里, Avatar和Pandora是完全不同的东西,跟电影和故事不相及的东西。 但凡是自建博客, BBS的人, 对头像一定不陌生,这就是Avatar, 就是帖子里的头像. 参与者也可以使用www.gravatar.com的服务, 通过一次头像的上传和设定, 在所有支持GRavatar的体系里,大多数的博客系统,CMS系统,例如Wordpress, 当你以电邮地址登陆站点, 你的Avatar如影随形自动就显示在你的帖子,留言里。以后当你看到如下图的多彩双B的符号, 就应该知道是choubb大侠的手笔了。 互联网的Avatar和阿凡达的寓意似乎有些类同。我翻开历史一查,这历史没有年代, 呵呵。歪歪斜斜的每个页都写着“印度教”几个字。读音也是从印度语借来的,指天神下凡所借的肉身或具形。Avatar更多更直接的会被认为是印度教中Vishnu的肉身。阿凡达影片里对人类顶礼膜拜, 几近成神;而神仙一般的Pandora居民, 无疑成了贱民, 原住民,甚至可以挂上原始两个字做其形容词。 Pandora是什么,作为数字原住民,直接的反应是www.pandora.com。两三年前意外发现这个网站时,重新燃起了俺上互联网的兴趣。这是一个在线音乐电台网站,目前的豆瓣电台,虾米电台有一点点P的影子,差不多是画虎反类猫的感觉吧。P网是第一个吸引俺每日常去的娱乐网站。即使到今天,在国内仍然没有能堪比2,3年前的P网的站点。进了互联网的圈子, 才知道Pandora依然成了推荐引擎的一个经典,跟亚马逊的社会化推荐引擎并驾齐驱,也被称为基因推荐。 P站上手很快, 一个简单得不能再简单的收音机UI, 创建自己的电台,也许就是一个标签而已, 比如创建Avatar频道, 然后搜索选择你认为应该属于Avatar频道的歌曲,歌手或者作者。可以是一首两首,也可以使几十几百首,1分钟内之内, 你的电台就搭建完毕,也开始播出了。P站根据你的初始设定的歌曲,以及收听途中的反馈, 不断学习你的口味,不断推荐新的类似风格的曲目。一切自动而行,听者无需做任何动作,除非你需要反馈,前进或者购买下载。到今天我还记得从P站学到的新歌 The King’sRead More…

30Dec/09

用户体验的流程和搜索设计随笔

年底终于闲下来, 在派代闲逛感言。不成体系, 一点点随想而已。 用户体验的流程和搜索设计,目前国内缺乏全才型人才。基本是业务外行IT内行,或者相反。 我的建议是,制定一套开发流程, 有机的结合起来业务专家和IT专家, 这样才能搭建起来一个业务和客户导向的在线应用。 目前俺们的开发流程是, 第一步, 技术自己去看甲方数据源, 请甲方业务专家描绘业务流程和业务特点(比如分类。。)—当然要提供一些参考样本了, 业务专家都是巨忙的强人。 第二部, 技术和业务一起讨论业务模型, 初步得到架构和可实现的业务模型和列表。 第三步。 开发,讨论 第四步, 开发讨论beta 第五步。该干嘛干嘛 第六步。。