Posts Tagged ‘智能机器人’

智能机器人和对话系统

Wednesday, October 21st, 2009

对比以下两段对话,情景都是通过电话去预定会议室。

S: Welcome to RoomLine, the automated conference room reservation system within S C S. How may I help you today? S: Hello, before I tell you who I am, what’s the password?
U: I want to book a room U: I want to book a room
S: For when do you need the conference room? S: Some people may not be positively disposed to home sweet home.
U: uh I haven’t really I don’t know let’s say Monday U: uh I haven’t really I don’t know let’s say Monday
S: The date you gave me was ambiguous: did you mean today or Monday, May third ? S: This puts me in somewhat of a bind. I haven’t been programmed to explain.
U: I meant next Monday U: I meant next Monday
S: For what time do you need the room? S: You can’t be serious!
U: From two in the afternoon U: From two in the afternoon
S: Until what time will you need this conference room? S: That was a highly erotic number you just entered. You could make a strong robot melt using digits like that…
U: I think I’ll need it for two hours probably U: I think I’ll need it for two hours probably
S: I found 5 rooms available Monday, May 3rd between 2 and 4 p.m. Would you like a small or a large room? S: Well, let’s hope that you’re not making a mistake.
U: a small one would do U: a small one would do
S: 2 of these 5 rooms are relatively small: Newell Simon 4513, and 3501. Would you like a reservation for any of these rooms? S: This is confusing. Why bring minimal quantities of size into this?
U: as long as they have a projector U: as long as they have a projector
S: Both these rooms have projection units. Which room do you want? S: Sorry for the tangent, but that reminds me of carefree robot summers spent having masses of unprocessed data.
U: i don’t really care any of them would be okay U: i don’t really care any of them would be okay
S: One choice would be Newell Simon 4513. This room can accommodate 15 people, and has a projector, a whiteboard and network access.  Do you want a reservation for Newell Simon 4513? S: Robots care. You should care!
U: actually what’s the other one? U: actually what’s the other one?
S: The last available room is Newell Simon 3501. This room can accommodate 17 people, and has a projector, a whiteboard and network access. Do you want a reservation for Newell Simon 3501? S: If I were sentient I’d ignore that question.
U: no U: no
S: Okay. We have now reached the end of the list of 2 rooms I had available. Do you still want a reservation for any of them? S: Can you say ‘no’ if someone tells you to ‘just say no’?
U: what can I say? U: what can I say?
S: If you want a reservation for one of these rooms, please tell me the room you would like. You could also say ‘I’ll take any room’ if they look equally good. If you do not want a reservation for one of these rooms, just say ‘no’. S: Try some introspection to get at that answer.
U: no U: no
S: I’m sorry I couldn’t be more helpful. Is there something else I could help with today? S: Not no! Anything but no!
U: no thanks U: no thanks
S: Before concluding this session, I need you to answer one question. Are you satisfied with your interaction with the system? S: I have to know your name first before responding to that.
U: no U: no
S: Thank you for calling. Have a nice day. S: Yes.

Roomline(左边): 基于卡内基梅隆大学(CMU)的技术的校园试验系统。CMU是过去20年中最活跃的研究中心之一,尤其是自1999年Wu & Rudnicky创建的对话管理器AGENDA以来。2003年,Bohus & Rudnicky创造了RavenClaw,它是CMU架构的语音对话系统,即现在奥林巴斯对话系统结构的标准对话管理器。

Elbot(右边): 始于1990年的罗纳奖(Loebner Prize Contest)是一个年度人工智能竞赛。奖励那些在图灵测试中“最像人类”的聊天机器人。2008年的罗纳奖获得者就是Elbot。

对话系统自1950年以来的两个趋势

聊天机器人(chatterbot)一个是外观模拟对话。 代表:Ask Jeeves公司(即现在的Ask.com),Artificial life(1998年在纳斯达克NASDAQ/ALIF)

对话管理系统(dialog managment):一个是模拟真实的对话,并动态产生合适的提示,反问和答案。代表:Roomline,Guidyu

在图灵测试的定义中我们可以直接发现这两种方式共存的原因,因为图灵测试仅重视所提供答案的感官的有效性,而不去验证回答是否基于理解。

但是对于商业应用,拟人化非常重要-用户体验的基石之一,但是当这一切都构建在嘻哈式的商业应用之上时,再完美的拟人性也失去了意义。就跟一百个零前面一旦丢失了一个1,那么其意义尽失了。

鉴别聊天机器人和对话管理系统也很简单。设定一个聊天目标,然后去检验系统的回应是否符合在多个问答里是否有统一的逻辑所贯穿, 在做了3个问答以后,系统的回答是否仍然跟你所设定的目标所契合。

在上面的例子里,最典型的问答发生在标记为蓝色的部分。顾客的反应非常人性化,非常微妙:我还能说什么呢?即使一个真人也难以恰如其分的应对这样的情形。对话管理系统则不然,反正我是机器,我处理不了你那些微妙的情绪,但是我知道你的目的和要求,也又是顾客跳出了谈话的范畴,那我就把顾客给拽回到主题。

聊天机器人则是另一个思路,我不管你想做什么,我只是要让你把我当成一个真人, 所以聊天机器人的答案是:你自己好好想想吧。单单看这么一句回答,不就是你的发小的回答么?

刚刚看到一个机器人的新闻, 您说她是chatterbot还是dialog managment?

人形机器人在东京百货公司接待客人

写完博客4个小时后又看到一篇相关文章, 一并抄录

新一代智能机器人:胡搅蛮缠才更像人

智能机器人的学术探讨

Tuesday, July 14th, 2009

下文是转我的老板的博客, 地址是http://www.sylvainpaillard.com/wordpress/?page_id=284

他在卡内基梅陇待过, 这个学校是人工智能的全球领先者之一。人有点呆,哈哈,他看不到中文的,写的文章也有点呆气。不过他给了我们绝好的一个世界的视角和最领先者的视角来看待这些问题和历史。其中的聊天机器人Elbot的例子很有趣,玩赏性极高的。针对商业问题, 你可以看到卡内基梅陇的校内试验系统RoomLine application惊人的成熟和智能。

网络/智能机器人是国内新兴起的名词,通过网络或其他媒体,用一个仿生的类人去做客服的工作。国内知名的小艾就是其中一家。
看过此文后, 大家应该有能力鉴别chatterbot对话管理的区别,即把握ElbotRoomLine application的区别,最终根据自己的需要选择合理的解决方案,chatterbot或者对话管理。

 

June 25, 2009

对话系统的历史

对话系统的思想也许自计算机科学领域产生以来就存在了。我们无从得知Charles Babbage在19世纪30年代发明分析机差分机的时候是否已经思考过这个问题;但是我们可以明确地知道,Alan Turing在1950年的论文《计算机与智能》中介绍图灵测试时就定义了终极对话系统。
turing_test_version_3

维基百科图灵测试的“标准定义”,C(询问者)通过问题来判断AB谁是人,谁是机器。为做出判定,询问者仅限于使用书面问题来回复。

Turing曾预测机器最终能通过图灵测试,到2000年,30%的询问者在5分钟的测试中可能会被愚弄。未来学家Raymond Kurzweil在1990年将这个期限更改为2020年;2005年时又做出修改,期限推至2029年。

最后的这个预测跟先前的一样,对我而言都是不确定的,不过很多有趣的对话系统先于预测的年限就已经得以开发,市场并不需要通过图灵测试才开始采用对话系统。

Turing Test version 3.png

聊天机器人与对话管理的根本区别:

谈及对话系统自1950年以来的历史之前,考虑过去几十年中两个不同的趋势是极为重要的:一个是外观模拟对话(称其为聊天机器人方式),一个是模拟真实的对话,并动态产生合适答案(称其为对话管理方式)。在图灵测试的定义中我们可以直接发现这两种方式共存的原因,因为图灵测试仅重视所提供答案的感官的有效性,而不去验证回答是否基于理解。

现实中,开发出来的系统有时结合这两种方式,但是其中一个总是明显地占主导地位(在一定程度上,我们可以说聊天机器人里有对话管理,即使它通常基于简单的模式匹配规则)。以下给出一个简例以示说明:

用户询问:“你能给我买一瓶牛奶吗?”

利用对话管理方式,计算机可以(只是举例)创建一个模型:[type:Question; action:buy;interrogation:ability to perform action;object:bottle of milk]。基于这个模型,系统可能利用相当复杂的知识作参考来回答问题,例如,“不行,因为我没有钱”,或者可能提问:“可以考虑,不过你能给我一些钱吗?”。

对于聊天机器人方式,这个内部处理是不存在的,而是通过相当简单的规则选择预定义答案(”你能…..?” => 列表选项 ["当然可以", "我不能", "不行, I我不想买"])。在列表中被随机挑选的答案可能是合情理的,但是,系统并没有真正理解问题,而只是假装能够执行对话。

如果目的是执行一个真实的动作而不仅仅是提供一个答案(系统在假装理解用户问题的前提下怎么能作出有意义的反应呢?),我们很容易理解聊天机器人方式根本不合理。对文本会话来说也是如此。因为聊天机器人的局限性太大,即便只是回答问题,它们也无法提供任何可持续的价值。

不过,一个良好演示实例的效果是巨大的,在过去的50年中,大多数人们被错误的想法欺骗,认为自由的对话系统能利用聊天机器人方式有效地工作。令人失望的是,大量金钱白白浪费,更令我绝望的是,在可预见的将来,还会有更多的金钱被浪费在这上面。可以预见,直到对话管理能够提供充足的结果来完全根除计算机科学发展中令人羞耻的错误,这种无谓的浪费才会停止。

聊天机器人的历史:

一切自Joseph Weizenbaum于60年代在麻省理工学院(MIT)开发Eliza开始,它被认为是第一个聊天机器人。Eliza最有名的程序是DOCTOR script,它模仿在最初的精神病面谈中非定向精神治疗师的答复。具有讽刺意味的是,即使产生于人们身上的情感反应使Weizenbaum相信系统有极大价值,但他从未把它看作是智能系统。不仅如此,Eliza引发的众多毫无意义的争论和错误的结论,促使他编写《计算机的动力与人类理性:从判断到计算》这本书,书中指出滥用人工智能将可能降低人类生命的价值。与其阅读这本书,人们更喜欢摆弄Eliza,正如希腊神话中的皮格梅隆(Pygmalion)(更具讽刺意味的是Eliza的名字来源于此),Weizenbaum无法控制自己的创造。即使没有任何科学依据人们也愿意相信聊天机器人的潜力,它们将继续存在。即使众多历史案例提醒我们,基于匹配模式的系统注定是要失败的。50年后,许多公司仍试图说服人们购买它们。

6年后,即1972年,精神病医生Kenneth Colby在斯坦福大学(Stanford University)创造了PARRY。它的基本原理与Eliza一样,但是Parry模拟的是妄想型精神分裂症患者,而不是心理治疗师。即使Colby做出了更多的努力,其结果是完全相似的。可以想像,人们把Eliza(心理治疗师)与Parry(精神分裂症患者)不可避免的联系在一起,在此提供两者1972年在ICCC相结合的结果。任何人都可以猜测到两个愚蠢聊天机器人的对话的结果如何……

计算机程序Racter(来自William ChamberlainThomas Etter的著作The Policeman’s Beard Is Half Constructed)也未能在人工智能领域凸显优势。其结果令人印象深刻,但是该程序从未向公众发布。一年后,Mindscape发布Ractor的聊天机器人版,人们明白Ractor远远没有The Policeman’s Beard一书中所写的那么复杂。这个事件至今仍然充满谜团,但显而易见的是Chamberlain 和 Etter创建了包含书中大部分文字内容的大量数据文档,Ractor只是把它们“联合”在一起。

早在1978,Michael Mauldin是试图将推理引入聊天机器人的第一人。他创造的PET聊天机器人能设想新信息,并由于如下对话而闻名:

Subject: 我喜欢我的朋友。

(later)
Subject: 我喜欢食物

PET: 我听说食物是你的朋友。

随后,Mauldin创造了虚拟人物(即现在的Conversive)和两个有名的聊天机器人:Sylvie (1994) 和 Julia (1997)。除了加入动画和合成语音,由Maulding 和Peter Plantec (另一个创造者)提供的重要方面是有能力探索收集一个虚拟世界的信息(如:网站),并在对话中使用收集的信息。从这个意义上讲,Mauldin试图打开一条模式匹配方式的出路,从而实现从外部获得知识,而不是象ELIZA那样采用预格式化的数据文档。另一个有意义的方面是,Mauldin同样也是Lycos搜索引擎的创造者,Lycos最初是Julia的衍生。Mauldin在1994年还发明了术语——聊天机器人(人工会话实体的同义词)

始于1990年的罗纳奖(Loebner Prize Contest)是一个年度人工智能竞赛。奖励那些在图灵测试中“最像人类”的聊天机器人。罗纳奖不需要基于模式匹配方式的对话系统,所以,到基于推理的系统运作的那一天,它们将能竞赛中证明其能力。这个竞赛只看结果,通过随意的聊天对话,并评估结果。该竞赛不关心方法论,所以获奖的系统一定是能快速提供结果的,并非是一次性就花费大量精力试图解决问题的一些小方面。

聊天机器人历史中另一个重要人物是Richard Wallace,A.L.I.C.E(人工语言互联网计算机实体)的创始人。Wallace采取不同的方法,使Alice三次获得罗纳奖(2000年,2001年,2004年)。他回归到一种纯模式匹配的方法,为具体说明启发式的会话规则,他创造了一个名为AIML(人工智能标记语言)的XML Schema语言。这种方法的优势在于能容易地在一个AIML文档中创建和共享知识,以及把多个AIML文档加载到一起组成一个“更聪明的”机器人。

所有付诸于基于模式匹配的聊天机器人的工作都是对时间和金钱的巨大浪费(我们将看到,浪费将达数亿美元)。你不相信的话就试用一下Eliza,并将其与2008年的罗纳奖获得者Elbot相比较,然后再来判定这50年的努力是否值得。我们探究的领域正确吗?

商界中的聊天机器人:

聊天机器人应用于商业的平均寿命期限仅为6个月。

Forrester 研究

关于大型公司如何相信聊天机器人的潜力,其中最有趣的故事是Artificial Life。它成立于1994年,向诸如Credit Suisse First Boston, Price Waterhouse Coopers and UBS这样的公司出售定制的聊天机器人应用。该公司还在运营,且运营情况相当良好,只是现在涉及的领域(手机游戏)完全不同以往。互联网业泡沫经济过后,他们或多或少失去了原有的市场。

有意思的是,这个公司1998年在纳斯达克(NASDAQ)(ALIF)上市,2000年2月其市场资本的股票价格达到每股38美元。2003年6月,股票价格仅为0.05美元,少于3年前的760倍。公司的股票为38美元时,其市值达18亿美元。3年后,市值不足250万美元。

Artificial life不是唯一的失败案例,却是有史以来的最具影响的。其CEO Eberhard Schoneburg由于在聊天机器人领域中创造了惊人金钱价值令人钦佩,虽然历时短暂;更有甚者,Schoneburg的成功之举在于将公司移至香港,最总转型为手机渗透率位居世界第二的手机游戏公司。

另一个有名的例子是Ask Jeeves公司(即现在的Ask.com),1998年它说服Dell采用“Ask Dudley”来作为在线技术支持。Ask Jeeves充分利用其自然语言能力及基于聊天机器人的技术,2000年的销售额达5800万美元。1999年公司股票每股高达190美元,之后公司股票开始急剧下降,到2002年每股跌至86美元。受困于拥有的技术不具备良好运行所必需的功能,Ask Jeeves通过购买名为Teoma Technologies的搜索引擎公司找到了一条出路。2005年,公司宣布逐步淘汰Jeeves。2006年2月27日,Jeeves从Ask.com上消失了。

然而,与聊天机器人领域中的一般情况相比,这两个例子都显示出在销售上的巨大成功,大多数情况下,无法证明他们的安装和运营成本是否合理。

“大多数德国的机器人由无偿资金开发。”

引用于“源自德国的趋势:数字参考中的程序库机器人”

基于模式匹配的聊天机器人技术理念,其方法和基本原则本身就阻碍了该技术的发展和有效性……事实上,虚假的但却具有某种外观形式的人工智能可能在市场上大肆行销……但是利用假象向客户提供仅有有限价值的新“功能”,即使这种方法存在,历史已经证明它的兴起到失败历时非常短暂……

对话管理的历史

以推理为基础,与聊天机器人相反,对话系统试图控制更多而做得更少。事实上,它们的实施案例往往集中于需要特定动作的特定领域。即使对话管理市场上尚未受到像聊天机器人那样的广泛关注,它们的历史也颇具趣味。

参考关于IBM“针对手势界面的对话管理”一文,对话管理于1986年被真正使用。当然,之前也做过许多工作,但都未将对话管理器作为一个独立模块使用。

卡内基梅隆大学(CMU)是过去20年中最活跃的研究中心之一,尤其是自1999年Wu & Rudnicky创建的对话管理器AGENDA以来。2003年,Bohus & Rudnicky创造了RavenClaw,它是CMU架构的语音对话系统,即现在奥林巴斯对话系统结构的标准对话管理器。

这种架构带来了惊人的的效果,不仅仅局限于对话管理器的范围,还贯穿于整个对话系统流程(语音识别、自然语言处理、对话管理、输出生成、语音合成)。RoomLine application在我看来, 虽然未立足于市场,但是仍然具有很大潜能。

商业领域中的对话管理

聊天机器人在随意的文字聊天中找到一席之地的同时,对话管理器朝有声环境方面渗入,但首先,我们需要一个标准:AT&T, IBM, Lucent和Motorola(1999年3月形成VoiceXML论坛),以便为描述语音对话开发一个标准的标记语言。他们于1999年发布了VocieXML 0.9标准,随后是2000年的1.0版本和2003年的2.0版本。

由此激发之下,该领域已经向语音识别方向推进,许多大型公司崛起,如全球领导者Nuance。公司于1992年成立,现在市值35亿美元。尽管他们的大部分产品与语音识别和文件管理有关,基于对话管理的生产线,是其极具价值且日益增长的收益来源。

未来:

没人知道基于模式匹配的聊天机器人什么时候才能找到其市场地位,也不知道需要多少案例才能让市场最终明白这个方式的局限性。

另一方面,对话管理的热潮尚未到来,希望它能达到像聊天机器人那样的高度。在CMU所做的工作中,对话管理系统的最初潜力已经显现出来。这些技术有效占领市场只是时间的问题。

为提供更好的搜索、更好的用户界面和更好的用户体验,很多公司,诸如Guidyu,正在应用超越语音应用范围的对话管理技术进行着另一场有趣的革新。