首页 > 封面故事 > 正文

人机交互:在虚拟与现实之间

2013-12-02 13:58 作者:王鸿谅来源:三联生活周刊 2013年第48期
计算是人类理解世界的一种能力,通过对信息的收集、处理,寻找关联,建立模型,得出分析与预测。在互联网时代,我们的计算能力正得到前所未有的延展——海量数据的传播、分析与存储,构建起无所不在的信息世界。强大的计算能力,正在帮助我们更深入地了解世界,了解自己。另一方面,作为计算能力的载体,计算机的形态也在不断变革,从台式机、笔记本、平板电脑到体积更小的移动设备,诸如智能手机和可穿戴设备。这是变革的终点吗?未来人类的计算能力还将通过什么方式得到承载和延展?

普拉纳夫·米斯特里

“第六感”的“魔法”世界

电影《哈利·波特》里,魔法世界的报纸上每一张图片都是会动的,可以随着阅读幻化成一段影像,打开的是报纸,看到的却像电视。被誉为天才少年的普拉纳夫·米斯特里展示的发明,已经可以把电影里的奇幻图景变为现实。当他随意打开一张报纸,如果是体育版,比赛的照片就变成比赛的视频;如果是时政版,官员的照片就变成了他们演说的现场。

普拉纳夫使用的不是魔杖和咒语,而是现代科技。这套被他命名为“第六感”的装置,包括了集合了包括摄像头和投影设备的可以挂在脖子上的长条装置、指尖的四色识别胶条和一部可以连接互联网的智能手机。摄像头捕捉着手指的动作,识别周围的环境和动作的意义,并做出反馈;通过投影设备,任何物体表面都可以成为显示屏,将反馈的结果呈现出来。这些识别和反馈,都是计算,完成这些复杂计算的,也不是魔法,而是通过智能手机连接到的“云端”——通过互联网实现链接的拥有强大计算能力的服务器。

在普拉纳夫的装置里,每一项技术都不是前所未有,但他把这些技术集成起来完成创新的想法,却是前所未有的天才。所以,当他在TED的印度大会上展示完这项发明的时候,全场起立,掌声雷动。TED是英语中三个单词的缩写:技术、娱乐和设计,它是美国的一家私有非盈利机构,宗旨是“用思想的力量来改变社会”,它不仅创立了基金会,还在全球运营TED大会,召集科学、设计、文学等多个领域的杰出人物,来分享他们的前沿思考。“第六感”两次出现在TED的演讲视频里,一次是普拉纳夫在麻省理工学院的导师主讲,然后请他以发明者的身份上台稍作演示;另一次就是TED的2009年印度大会,普拉纳夫单独上台,更完整地展示了他的创想。

通过“第六感”装置,普拉纳夫不仅可以把任何物体表面变成他的显示屏,更了不起的是,在真实世界和虚拟世界之间的随时切换。他不仅可以在纸上看视频,在墙上玩游戏、进行文档处理,还可以只用四个手指组成一个取景框就完成拍照,在手腕上做一个画手表的涂鸦动作,就真的能在手腕上投射出一个有指针的手表看时间。与一个陌生人见面,就能通过网络搜索分析,将对方的个性关键词解析出来并投射在对方身上;对一本实体书的任何一段文字或图形做一个简单的抓取动作,就能让它们呈现在虚拟的显示屏里……

“第六感”装置与笔记本电脑或者智能手机在本质上并没有区别,也是一种计算能力的载体,只不过,人们可以用更简单的操作,更自然地完成与机器的互动。其实,自从计算机发明以来,人机交互,也就是人类与机器的“对话”就一直是科学家们在研究的课题,最自然的人机交互模式是什么样子?不仅局限于我们现有的技术能力,更取决于我们的想象力。普拉纳夫自己的思考是:“我们的下一代天然就会在任何屏幕上点击、在纸质照片上做缩放的动作……他们看待物质世界的方式与我们截然不同。所以,思考下一代的媒介时也必然要跳出盒子,同时从虚拟世界向物理世界思考。”

道格·恩格尔巴特和他发明的鼠标

与机器“对话”

从计算机诞生开始,人与机器的对话也就开始了。还记得简陋的DOS界面下那些必须死记硬背的命令代码吗?早期,人机对话的“门槛”很高,要经过专门的学习,掌握特定的复杂操作指令,才能让计算机明白人们的简单需求,输出简单的结果。“在早期的命令语言用户界面时代,人和计算机的交互主要是通过键盘来完成的。此时的计算机主要是大型机,用来进行科学计算,接受文本命令。”中科院自动化研究所模式识别国家重点实验室研究院陶建华说,“后来,道格·恩格尔巴特发明了鼠标,施乐公司提出了图形界面的交互方式,计算机由此进入了个人PC时代,WIMP范式成为电脑所采用的界面典范。”

“WIMP是由视窗(Window)、图标(Icon)、菜单(Menu)以及指针(Pointer)所组成的缩写。”陶建华解释说,“这种命名方式也指明了它所倚赖的四大互动元件,在人机互动领域之中,WIMP范式堪称标准和典范。”不管是微软的Windows、苹果电脑的MacOS,甚至其他以X-Window为基础的操作系统,都采用WIMP范式。但随着计算机硬件设备的进步和软件技术的发展,WIMP界面的缺点逐渐地体现出来。“比如平板电脑和智能手机,屏幕小,而且为了携带方便,就不适宜再配置鼠标,焦点自然就聚集到了下一代的用户界面的研究上。”用户界面技术的每一次飞跃,都是为了完成同样的目标:帮助计算机了解用户,帮助用户更好地使用计算机,实现计算能力的延展。

除了键盘输入,鼠标点击,我们还能用什么方式与机器互动?苹果智能手机和平板电脑系列的诞生,让我们看到了另一种可能性——触屏、语音和手势、动作识别,在术语里,它们都被统称为“人机交互模式”。不过,这些交互模式真的是苹果的独创吗?答案是否定的。“早在10年前,新的交互模式就已经出现了,但是在苹果手机出现之前,没有任何产品能取得同样的成功。”陶建华分析说,“第一个原因,是传感器技术当时还不够发达,触摸控制设备很早就有了,不过早期是电阻式触摸屏,靠作用的力来改变屏幕的电子属性,完成输入,所以一般都配有专门的触控笔,或者需要用手很用力地按压屏幕,而苹果手机使用的是电容式触摸屏,通过静电感应来完成输入,从电阻屏到电容屏,在技术上并非质变,但在用户体验上,却完全不同。”

“另一个原因,是语音识别技术和对话管理技术的发展。”陶建华解释说,“早期的语音识别系统很不完善,识别率低,体验感也不高。”陶建华已经从事了近30年语音交互技术的研究,他回忆说,“研究早期,除了像IBM和微软这样的大机构,对世界上其他许多研究机构来说,计算机信息资源都受到诸多限制,在语音识别系统上,缺乏声音数据资源来进行训练,能使用的服务器群组也非常有限。声音数据的采集,要耗费大量的人力物力,还要由专业机构进行文字转换和处理,再变成机器能识别的语言。早期我们能有几百个小时的声音数据就很不容易了,哪里像现在,动辄就是1万多个小时的声音数据。”数据的丰富,意味着机器可以完成更多的模型训练,能更好地识别声音的不同特征。而互联网的发展,推动了“云识别”技术的进步,通过云端更为庞大的服务器和计算模型的创新,“我们不仅拥有了更丰富的数据,也拥有了更强大的数据处理能力”。

阅读更多更全周刊内容请微信扫描二维码下载三联中读App,注册就有红包哦!

版权声明:凡注明“三联生活周刊”、“爱乐”或“原创”来源之作品(文字、图片、音频、视频),未经三联生活周刊或爱乐杂志授权,任何媒体和个人不得转载 、链接、转贴或以其它方式使用;已经本刊、本网书面授权的,在使用时必须注明“来源:三联生活周刊”或“来源:爱乐”。违反上述声明的,本刊、本网将追究其相关法律责任。
已有0人参与

网友评论

用户名: 快速登录

《立冬》现已上线即刻前往 App Store 搜索“三联生活节气”体验更多精彩。

《霜降》 《寒露》 《秋分》

微博@三联生活周刊
微信:lifeweek
扫描下载三联中读App
三联中读服务号