首页 > 封面故事 > 正文

人机交互:在虚拟与现实之间(2)

2013-12-02 13:58 作者:王鸿谅来源:三联生活周刊 2013年第48期
计算是人类理解世界的一种能力,通过对信息的收集、处理,寻找关联,建立模型,得出分析与预测。在互联网时代,我们的计算能力正得到前所未有的延展——海量数据的传播、分析与存储,构建起无所不在的信息世界。强大的计算能力,正在帮助我们更深入地了解世界,了解自己。另一方面,作为计算能力的载体,计算机的形态也在不断变革,从台式机、笔记本、平板电脑到体积更小的移动设备,诸如智能手机和可穿戴设备。这是变革的终点吗?未来人类的计算能力还将通过什么方式得到承载和延展?

普拉纳夫·米斯特里在演示“第六感科技”

大数据时代的未来

语言是人类交流时最主要的信息方式,那么我们与计算机之间是否也可以同样实现?陶建华已经从事了近30年的语音交互模式研究,在他的记忆里,“语音技术的发展经历过三次高峰”。“第一次是上世纪70年代到80年代,一个短暂的高峰,计算机已经能做语音识别处理,但技术远远未能达到应用层面。曾经最为著名的贝尔实验室,花费了许多的人力物力投入到语音拨号的研究中,结果也未能成功。”“第二次高峰是90年代,统计计算模型的引入。早期的语音处理虽然能够建立规则,但是识别僵化,而隐马尔可夫模型的引入,使得理想状态下的整个识别结果的准确率一下子超过了90%,这是惊人的进步,不仅仅大机构在投入研究,也因此诞生许多相关的科技公司,包括后来开发出SiRi系统的公司。”“第二次的高潮持续到2000年左右,随互联网泡沫的低潮进入低潮,尤其是2000到2005年这一段时间,整个国际上对语音技术的研究投入都很少,直到苹果公司买下SiRi专利,在发布的新款手机上推出了这个系统。从2009年开始,语音技术的研究进入了新的热潮,除了手机,还有车载语音系统、无人值守电话等领域。”陶建华很清楚地记得他在比利时参加的一场语音技术的国际会议:“现场展出了一款高档车的语音系统,导航、仪表控制等等,都实现了语音控制,我印象最深的是,为了实现车内的降噪,每辆车里的若干个麦克风设置都是无比精准的。”

这三次高峰里呈现出两个规律,如果产生了新的计算模型,计算机的计算能力得到质的飞跃,就能极大地推动语音技术的发展,与此同时,新的成功的应用,反过来也会推动技术研究的进步。中国的语音技术研究,“如果说90年代还没有跟上国际步伐,那么从2005年左右开始,我们已经基本跟国际同步了”。陶建华欣喜地看到了语音识别技术准确率的不断提高,“这几年的识别准确率一下子提高了好几个百分点,从93%飞跃到了96%以上,这在过去是不可思议的。当准确率提升到90%以后,每增长一个点都是非常非常难的,过去十几年,也没有提高一个点,但现在我们可以做到了”。作为研究者,他也意识到这背后更值得思考的问题:“这种提升,是因为另一种计算方法的出现,‘深度机器学习方法’,这是加拿大人Hinton的研究做出的革命性的引领。深度机器学习方法与隐马尔克夫统计模型的结合,实现了这几年的准确率提升。但是,虽然深度机器学习方法是一种创新,但是在大的框架上,我们还没能突破最初的统计计算模型,未来的技术发展,最终还是要取决于计算模式上的根本性创新。”

2011年2月28日,德国汉诺威CeBIT展会上,牵头开发“沃森”的IBM公司科学家费鲁奇(左)向参会者展示这款超级电脑

不过,计算模式的根本性突破,显然是更为艰难和漫长的道路,所以,在比较近期的未来,我们更可能看到的还是各种新型应用的产生。陶建华举例说:“比如像谷歌眼镜这样的产品,主要就是通过语音控制,眼镜接受特定的语音指令实现开机、打电话,完成拍照、摄像和在社交网络实时分项等功能。”类似这样的产品,“过去也有人在研究,在眼镜上加上麦克风和摄像头等等,但是和苹果手机一样,在谷歌眼镜之前,并没有一款产品能够被人记住”。在他看来,这些产品的成功都有同样的原因,“应用构思如此巧妙,交互模式如此友好”。

这些产品的出现,也一再印证了同一个规律,“创意的原型来自科研机构,但是,最成功、成熟的创意往往来自大公司,因为他们更接近应用,而且拥有更强大的研发实力”。

机器的“智能思考”

当年深蓝计算机的出现,实现了人机对弈时的戏剧性变化,机器与世界冠军之间分出了胜负。深蓝被比喻成具备了“5岁孩子的智力”。现在,随着大数据时代研究的进展,拥有更高智力的计算机已经出现。它亮相于美国家喻户晓的一档游戏节目《危险地带》,与下棋不同,这是一个多人参与的现场抢答节目,这就意味着,计算机远不止要能进行语音识别,它既要能听懂问题,还要能做出及时判断。从观感上,人类与这个计算机之间,已经能够进行顺畅的交流。这个计算机是IBM的沃森解决项目,在计算方法上的创新,是“智慧计算”的尝试,它的研发目的是用于医疗。

IBM沃森项目研发团队介绍说:“沃森一个重大的特点是基于事实的、基于已经记录下来的事实所推演出来的答案。”“沃森非常擅长从一个大量的知识体当中寻找答案。沃森本身是不具有所谓的直觉,也不具有主观的意见,所以虽然它能力很强,但是永远不会取代医生和其他的专业人士,这些专业人士他们的特长是具有丰富的经验和专业的直觉。人类的专家的特长或者特别的价值就在于找到从前从未发现的知识,从前从未回答过的问题。”“人类在给出答案的时候,也许对于事实没有那么广泛的掌握,对于事实的话可能也没有那么持久的记得,往往是以印象、直觉、主观的意见来给出答案,沃森是完全基于事实给出的答案。在很多场景之下,往往会出人意料地给出一些答案,这些答案事实上也都是基于事实的。”

最有价值的,自然是智慧计算的尝试和努力,IBM的沃森团队介绍说:“这使得我们把计算从一种线性的计算模式转成一种大型的计算,能够同时考虑多个因素的一种大型计算。用一个例子来解释什么是单纯的线性计算到考虑综合因素的计算的变化。”“认知计算,把整个计算的水准又大大提升了一步,它其中一个显著因素是把一些类似于人类的推理推导和理解的能力加入到计算当中来,增加对预期期望的因素,这就变得更加智能,能够把一些不是直截了当所表达的因素和环境的知识能够同时加入到计算当中来,综合利用这些因素,能够得到一些更为精准和更为智慧的答案。这些答案都往往不是事先编制在系统当中的,而是由类似于人类的推理推导而带来新的见解。”

不过“从本质上来讲,沃森并不在模拟人脑的运算模式,尽管是从效果的角度来讲,达成了某些类似的效果,尤其是在对于语言的处理上”。“在沃森里有一个模块,有一个硬件是用了神经计算的能力,除此之外我们并没有在沃森的技术里面过多用神经系统的领域。神经计算有很大的潜力,是值得大家关注的,可是人类是如何思考、思维和推理之间是有很大的不了解的地方,真正达成在一个计算机里的电子和半导体当中的流转到最后如何通过电脑能够获取知识,达成结论,得到理解,这个距离是一样远的。所以总而言之,神经计算是值得关注的计算领域,它的一些工作也得到一些应用,可是在目前沃森里面还不是一个主流。从机器计算到人脑计算之间还有一个遥远的距离,我们还不知道进展的时间表是什么。”

 

 

 

阅读更多更全周刊内容请微信扫描二维码下载三联中读App,注册就有红包哦!

版权声明:凡注明“三联生活周刊”、“爱乐”或“原创”来源之作品(文字、图片、音频、视频),未经三联生活周刊或爱乐杂志授权,任何媒体和个人不得转载 、链接、转贴或以其它方式使用;已经本刊、本网书面授权的,在使用时必须注明“来源:三联生活周刊”或“来源:爱乐”。违反上述声明的,本刊、本网将追究其相关法律责任。
已有0人参与

网友评论

用户名: 快速登录

《立冬》现已上线即刻前往 App Store 搜索“三联生活节气”体验更多精彩。

《霜降》 《寒露》 《秋分》

微博@三联生活周刊
微信:lifeweek
扫描下载三联中读App
三联中读服务号