Tag Archives: Guidyu

21Feb/10

搜索技术在知识库中的应用

几个月前去四大银行之一交流。我们作为搜索技术提供商参与了客服中心方案的讨论,旨在提供web渠道的自助服务。 两次交流后,银行一方问了很多知识库的问题-原来项目中的重头之一是如何修订甚至重建目前已有的知识库-分类混乱,错误多多,更让x行头痛的是多条知识存在一个doc或xls的文档里,如何找到知识,并精确定位,都是传统知识库难以解决的问题,不是么, 面对一个或数个海量知识库, 你有足够的金钱和人力重新修订该知识库么? 还好,俺们公司提供左图的知识库自我学习的机制。前提是有客服机制的系统。当在线知识库查询得不到满足时,系统可以将查询请求转移到客服,客服找到合适的答案,推送回给客户。我们的系统则负责在客户线上搜索的模型和客服推送回的修正的知识建立新的对应。当下一个客户进行同样的搜索时,搜索引擎返回的已经是经由客服更新的知识了。 这样的好处是,客户查询越频繁的知识,被修订的越早。根据power law的定义,应该80%的客户查询都集中在20%的知识上。其次, 知识库的修订跟客服流程相结合,而无需额外的系统和人工。其三,除非新增知识,错误知识的修订并不改变知识库的任何数据,只是改变搜索引擎的索引到新的文档ID或链接。当你有一个海量知识库的时候,以传统技术解决以上三点的工作量可能是你完全不敢想象的。 当让除了上述三点, x行对多数据源的支持也很感兴趣-搜索引擎天生支持多种多个数据源的。这样可以免除了知识库合并的天文数量级的工作量。 大中型企业经过多年的IT建设后,存在各种IT系统,如OA、HR、ERP、CRM、财务系统等,这些系统因为建设时期、项目的不同,形成了一个个数据孤岛。而客户的要求经常要查询多个IT系统,在界面各异,逻辑各异的数据孤岛中寻找相关的内容,基本上成了mission impossible。如何检索,分析和利用分散在不同系统, 不同数据格式的大量已有数据去解决问题, 变成了企业知本能力和行动力的基础。 听起来很玄妙?www.splunk.com就是一个典型的例子。假如你是x电子银行,早上10:30多个客户投诉转账不可用了,你是公司的IT经理,第一反应什么?打电话找集成商和供应商吧。有了 Splunk,可能第一反应是查看splunk并做几个搜索。Splunk 本质就是搜索引擎,将你的IT所有系统的性能,维护,安全等等数据都一网搜尽,不论是底层的数据交换机,路由器,OS,服务器,应用服务器,数据库,web服务器,所有的系统的监测数据和log都为splunk所用。Splunk 将所有的数据进行索引和分类,并提供dashboard,报表等高级功能。所有相关电子银行的异常都将被splunk在一个列表里反映出来, 无论它是防火墙, 路由器, OS, 应用服务器还是数据库等等。 Splunk就是知本经济在IT中的典型应用, 那么你的工作中的知本应用是什么呢?

14Jul/09

智能机器人的学术探讨

下文是转我的老板的博客, 地址是http://www.sylvainpaillard.com/wordpress/?page_id=284 他在卡内基梅陇待过, 这个学校是人工智能的全球领先者之一。人有点呆,哈哈,他看不到中文的,写的文章也有点呆气。不过他给了我们绝好的一个世界的视角和最领先者的视角来看待这些问题和历史。其中的聊天机器人Elbot的例子很有趣,玩赏性极高的。针对商业问题, 你可以看到卡内基梅陇的校内试验系统RoomLine application惊人的成熟和智能。 网络/智能机器人是国内新兴起的名词,通过网络或其他媒体,用一个仿生的类人去做客服的工作。国内知名的小艾就是其中一家。 看过此文后, 大家应该有能力鉴别chatterbot和对话管理的区别,即把握Elbot和RoomLine application的区别,最终根据自己的需要选择合理的解决方案,chatterbot或者对话管理。   June 25, 2009 对话系统的历史 对话系统的思想也许自计算机科学领域产生以来就存在了。我们无从得知Charles Babbage在19世纪30年代发明分析机和差分机的时候是否已经思考过这个问题;但是我们可以明确地知道,Alan Turing在1950年的论文《计算机与智能》中介绍图灵测试时就定义了终极对话系统。 据维基百科 – 图灵测试的“标准定义”,C(询问者)通过问题来判断A和B谁是人,谁是机器。为做出判定,询问者仅限于使用书面问题来回复。 Turing曾预测机器最终能通过图灵测试,到2000年,30%的询问者在5分钟的测试中可能会被愚弄。未来学家Raymond Kurzweil在1990年将这个期限更改为2020年;2005年时又做出修改,期限推至2029年。 最后的这个预测跟先前的一样,对我而言都是不确定的,不过很多有趣的对话系统先于预测的年限就已经得以开发,市场并不需要通过图灵测试才开始采用对话系统。 Turing Test version 3.png 聊天机器人与对话管理的根本区别: 谈及对话系统自1950年以来的历史之前,考虑过去几十年中两个不同的趋势是极为重要的:一个是外观模拟对话(称其为聊天机器人方式),一个是模拟真实的对话,并动态产生合适答案(称其为对话管理方式)。在图灵测试的定义中我们可以直接发现这两种方式共存的原因,因为图灵测试仅重视所提供答案的感官的有效性,而不去验证回答是否基于理解。 现实中,开发出来的系统有时结合这两种方式,但是其中一个总是明显地占主导地位(在一定程度上,我们可以说聊天机器人里有对话管理,即使它通常基于简单的模式匹配规则)。以下给出一个简例以示说明: 用户询问:“你能给我买一瓶牛奶吗?”Read More…