首页>>>技术>>>cti平台

发表评论分享按钮

真正的“人工”智能 让人意外的“土而奇机器人”

2011/08/08  


  看到一个很让人惊喜的八卦故事。

  一位叫赵行德的人在豆瓣上发了一个消息,谈到他在和联想产品经理聊天,了解到了一个手机应用背后牛逼的故事。这个故事显然把他击倒了。而我,也被击倒了。

  先说说故事的引子乐助理 360,这是一个很省心的日程应用。

  来举个例子吧。这个应用,有三种方式为用户设定手机日程,语音、文字和直接的电话。你对着手机说:后天 9 点飞北京,然后上传,几分钟之内,iPhone 日历就增加了一条在 9 点“飞北京!”的日程。文字呢?当然更好理解,你再也不需要在手机的日程管理软件中反复输入了,直接在这个应用输入你的计划,和短信一样发送,随后,你的日程也如你所愿就自动添加到系统日程了。

  你会发现它相当方便。智能设备,特别是全触屏的手机,输入一直是很多使用者的心头痛。语音可以帮助用户方便地跨越这类门槛。不过,这类应用的成本还不仅仅在于单纯的输入,而是在于它需要你进行太多的选择。一个标准的场景是,拿出 iPhone,用拇指扫开屏幕,找到日程应用,然后填充一堆的表单区域。完成一个简单的日程,也需要点击很多很多次,耗费颇长时间。喜欢 GTD 的人,也许会乐于享受这种编辑归类过程,但是对于普通人来说,这种体验实在太差了。

  且慢,还不光是你简单动动嘴皮的问题。你会发现它非常精确,它很听话,它很懂你,它支持所有的自然语义。这可不简单啊!

  为何语音识别可不简单?它必须要解决各种场合下精确的识别处理问题。一方面,它需要对所识别语言规律和语句的高度理解,另外,它还需要解决各种噪音和干扰情况下(这是语音识别环境的常态)的识别问题。语音识别技术在商业和人机交互上一直以来缺乏足够的表现,正是由于无法精确的识别人类语音的表达。苹果去年 4 月耗巨资收购 Siri,看中的就是它就是可以很准确地识别人们的语音,针对人们提出的问题进行回答。人们认为,这个在语音识别领域浸淫已久的 Nuance 开发的语音技术,有可能让苹果开启下一扇人机交互的大门。

  但是一个来自联想的应用,解决了这个问题?是联想在和科大迅飞搞的语音云合作项目?科大迅飞是联想投资的一个项目,上市前就获注资数千万元,而 2010 年底科大迅飞发布语音云系统时,柳传志也亲自出席了,这不得不让你有这样的联系联想。

  反正我信了。马上就要和朋友感慨现在科技的日新月异了,CPU 已经可以代替人脑,云计算吧!脑海浮现出机器人统治世界的场景。

  “人工”智能

  然后,赵行德告诉你“让人崩溃”的真相:它背后的故事是——它的“高科技”,它的精确,它的“人工智能”,就在于,它真的是人工的!——他们在远端用人听这些语音消息,然后输入进去 ……

  我不知道这个消息是否属实,但是我在测试中发现,它确实有很强的“人工”迹象。一是我试用这个软件的时候,使用了粤语,然后这个应用就在远端“死机”了——日程记录并没有自动推送过来,听闻说四川话是 ok 的。二是上传了语音后,推送日程的处理时间差别蛮大,感觉不太象是计算机即时处理的。三是精确度确实很高,在不同噪音环境下和不同腔调下,效果都相当不错,很难让你相信这是机器识别的。

  不过,这只算一个八卦消息,真实的情况仍然待验证,特别是语音识别系统和呼叫中心的结合也有商用的案例。简单粗暴的直接判断它是完全人工的不太合适。但是真正有趣的,却是这个八卦故事所折射出的“创新”智慧。

  初看,这个故事包括后续的回复都让人忍俊不禁,但是,回头一想,也许这真是一个非常棒的创新,一个非常聪明的商业模式的创新。

  为何商业创新需要高科技呢?商业创新的意义在于更小的成本创造更大的价值。据说这个服务主意还是联想呼叫中心的人想出来的。它利用到了现有的成熟模式,并在这个成熟的商业模式上派生出了另外一种创新价值。

  这个服务的“极其牛逼”之处,在于它把一个复杂的问题彻底的简单化了——而简单化,确实牛逼的商业模式最为宝贵的特质。你不会看到真正可行的商业模式是复杂的,让人看不懂的。

  它用非常简单的方法(人工听),解决了语音识别精确度问题,解决了输入问题(远端人工编辑推送),解决了随时随地服务的问题(24小时的呼叫中心)——至少,让语音识别达到了非常好用的程度。它用超低廉的成本,完成了“高科技”很难做到的效果。它还是可扩展的。scalable 这个词在互联网模式中很热呢。

  而高科技的云计算,本质和人脑简单集合处理并无不同,也许只是成本问题。科技本来是要降低成本的,如果在一个可以用人工比科技更好的降低成本的场合,为何不使用人工呢?

  

  “土而奇机器人”

  这种智能众包这也并非是联想呼叫中心的独创。

  亚马逊就 2005 年推出一个叫土耳其机器人(Mechanical Turk)的服务,其理念,就是让人力众包来完成电脑力有不逮的细碎、精确的智能工作。这种众包让计算机调用人的智慧智能,把人和电脑的角色颠倒过来,让人成为任务的完成者,而电脑成为任务的分配者。起名叫土耳其机器人本身也映射了这个项目的性质:

  这个名字源自于臭名远扬的能下象棋的“自动装置”,它是匈牙利男爵沃尔夫冈·冯·肯佩伦(Wolfgang Von Kempelen)1770年建造的。这个木制机器外形像一个坐在大机箱前的土耳其魔法师,它能自动而快速地下象棋,用复杂的齿轮和杠杆系统来移动棋子。在维也纳皇宫的首次表演中,它就迅速击败了对手Cobenzl伯爵,让在场的皇室成员看得十分高兴。从此关于这个惊人聪明的机器人迅速闻名于世,于是肯佩伦带着它在欧洲各地表演,击败了一系列著名的挑战者,包括拿破仑和本杰明·富兰克林。直到几年之后,这个骗局才被揭穿。原来机箱里藏了一名象棋大师,他用一个磁铁系统来跟踪对手的举动并移动自己的棋子,这个人实际是在模拟一种人工智能。(摘录自 比特云 )

  这也是我们笑称它为“土”而“奇”机器人的来历。

  可行性?

  理论上的问题解决了,我们再来看看现实的商业问题。这得多大的人工成本?!别着急,看看赵行德的初步概算:

  我测算了一下,平均每个活跃用户每天提交0.5条语音,每个人每分钟处理3条语音,每天工作7小时,可以服务2500个活跃用户,100人的数据中心可以服务25万活跃用户。

  如果把数据中心建在西部贫困地区,月薪800元估计就足够了,25万工资成本才8-10万,100人的数据中心,每人2500元的电脑,投资25万,数据中心投资30万元,办公家具设备5万元,偏远贫困地区租个办公室,月租不到5000元,100人工资8万元,宽带月租2万元,10个产品开发人员,每月5万元,5个打杂行政人员,1万元。

  总投资60万元,每月运营成本16.5万,就能办出给至少25万活跃用户,100万注册用户服务。

  可行吗?

  对的,它很土,很奇异,但是,它靠谱(it work),它可行。这个“土而奇”机器人很棒。

  这不正是商业创新的意义吗?

  目前,这个服务是免费的。而且所定义的日程服务类型所限,用户群也许并不算很大,每天下载量据说是 2000。但是它显然是一个可行的商业模式,同样的思路,你也许可以把它扩展到其他的移动互联网服务领域,有拾音功能的移动设备天然就是一个命令录入装置,天然就是一个可以收集多样服务需求进行集中处理的终端,智能手机已经为很多“云计算”的概念提供了坚实的应用基础。

  你会为这样的管家类服务掏钱吗?至少,我会的。我觉得,与其把时间浪费在各种纠结上,还不如出钱让自己在零碎的时间发发呆。

  这正是服务的意义呢。

爱范儿



相关阅读:
面对移动设备激增 运营商优化客户体验的三个步骤 2011-08-04
采取行动,增进智能化客户交流 2011-08-04
IPCC二次开发资料下载:VXML业务功能开发详解 2011-07-20
连接车、人和社会:NEC网络车载智能通信构想 2011-07-18
LTE为云视频服务运营商/SP创造机会 2011-07-08

热点专题:  语音合成TTS 语音识别ASR  
分类信息:  CTI文摘_与_CTI平台技术