首页 > 文化 > 科技 > 正文

微软中国脑的仿真世界

2002-11-29 16:11 作者:鲁伊 2002年第47期
SMART中的肖像视频技术能够抽取人脸的表情信息,形成可以在带宽较窄的设备间高速传送的清晰脸部轮廓图像

SMART中的肖像视频技术能够抽取人脸的表情信息,形成可以在带宽较窄的设备间高速传送的清晰脸部轮廓图像

SMART中的肖像视频技术能够抽取人脸的表情信息,形成可以在带宽较窄的设备间高速传送的清晰脸部轮廓图像

理想主义者的研究院

坐在希格玛大厦的办公室中,微软亚洲研究院副院长、多媒体计算组负责人的张宏江博士更愿意从“雇人哲学”开始,介绍这个在11月5日刚刚度过自己4周岁生日的世界级实验室中140余名研究人员的工作。张宏江说,与通常大家认识的微软不同,亚洲研究院很少有一个从上而下的计划或任务,要求某个人在某一个时间段中必须做出某些东西。这里更强调一种“理想主义”的开放环境,让研究员有选择自己从事哪项研究的自由。

“我们是研究院,不是新产品开发部或公司的先进技术开发组。我们常说,如果你做10个研究,10个都成功了的话,那就是失败了——因为你没有创意。研究院是对未来的投资,一个对自己未来有信心的公司应当允许他的研究人员理想主义。”张宏江说。而雇人哲学,是他认为能够保证这一切得以运转最重要的一关。

“研究院先是雇到了开复(微软亚洲研究院原院长李开复),开复雇到了亚勤(微软亚洲研究院现任院长及首席科学家张亚勤),亚勤又雇到了我。这些人凑到一起的结果,就是现在我们亚洲研究院在世界计算机多媒体领域,绝对是第一流的。”张宏江反复对记者指出,研究院可能更看重自己在相关领域上对学术研究的推动而并非功利地以产品为中心——“我们发表10篇论文,可能其中只有1篇最终会转化为微软的产品,但其他9篇使这个领域的研究大大前进了一步,可能影响到未来的几十年,这是我们看重的。

投机取巧的搜索捷径

英特尔公司创始人之一戈登.摩尔提出的“摩尔定律”现在对许多人已经是耳熟能详:每过10年,计算机系统性能就会增加100倍,而通信带宽也会提高100倍,但所需资金不会增加。在这种情况下,从文本到音频到视频,大量数字信息必将扑面而来。

的确,Google是目前最好用的搜索引擎,然而,Google只能依据文本进行搜索,即使是它的图像搜索,也要通过图像文件名或图像所在网页中出现的关键词来完成。而像音频、视频的搜索,Google及其他搜索引擎就更加无能为力。

音频、视频或图像的搜索关键在于识别。如何能让计算机听得懂,看明白,此问题已经困扰了学界近40年。大约在10年前,张宏江想到,虽然计算机可能不能理解一本书的内容,但运用某种算法,却可以让它为这本书编制出一个目录。这样就可以通过一个捷径,完成至少90%的工作。

这就是后来张宏江所提出的找出结构的“框架论”。在视频搜索上,张宏江率领的研究小组目前已经开发出可以将一段新闻,自动按照不同的内容分割成不同的段落,并编制成索引的软件。通过该索引,用户将能从图像中找出自己想要看的那部分,而不必花费大量时间在逐一浏览上。

在图像搜索上,张宏江引入了“相似度”概念。“我给计算机一张图片,叫它识别出这是狗还是猫,或是别的什么,可能再过30年,我们也做不到。但我可以预先给出一个目标图像,然后让计算机依据这个图像去寻找另一幅图像与它的相似点。如果相似之处很多,我们就可以说,这两张图片上的东西大约是一致的。”通过这种被张宏江称之为“投机取巧”的办法,微软亚洲研究院开发出了多种功能强大的图像搜索系统,其中,就包括张宏江最为得意的“人脸辨识系统”。

人脸识别系统在安全上的应用因为“9.11”的原因在最近成为一大热点,但张宏江说:“我们系统的重点在于辨认,就是从一大堆背景图案中找出人脸,并知道这张脸属于谁。我们试图将它用于家庭或是小规模的办公环境下,这样,计算机通过自我学习,可以自动为每个人建立自己的图像档案。此外,它还可以被用在其他一些用途上。”他的人脸辨识系统目前已经能在1秒钟处理15张照片,并且不仅局限于正脸的护照照片。因为有调查表明,75%的照片都不是正脸。

与传统人脸识别系统不同,张宏江的系统没有采取“本征脸”方法,而通过系统自动找出眼角、鼻尖等“特征量”的办法进行识别。系统并不是按照某种固定模式寻找确定的点,而是根据不同的情况,自动进行判断,最终形成一个独特的“Signature”。

搜索声音的空间

微软亚洲研究院的多个课题小组都不同程度参与了音频搜索的研究。通过旋律找音乐可能是其中最有趣的项目之一。唱过卡拉OK的人恐怕都有这样的经历——有时候一段旋律就在嘴边,却想不起来它出自哪首歌,也记不准歌词。有了这个找歌的小程序,一切就会变得非常简单。你只要哼出一小段来——高八度低八度都没关系,计算机就会自动从数据库中找出与之相匹配的歌曲来。

另一种音频搜索则可能解放众多记者的劳动力。很多时候,录了一大堆采访录音,可能只要听清楚里面的一段对话,如果是传统的采访机或录音笔,少不了要前进后退,反复折腾个半天。而要弄清楚放了很久的一盒磁带里到底录了些什么东西,更是困难。开发中的音频搜索系统的奇特之处在于,它可以将你输入或是说出的关键词转化为音频,在庞杂的音频数据库中搜索与之匹配的音频段落,然后将结果返回。这样,你就再也不用为了几秒钟的内容花上几小时去整理录音了。

勾画灵感的数字墨水

“你不要把它想成什么别的东西,它就是墨水。”多通道用户界面组的主任研究员王坚一边强调着“数字墨水”定义,一边在他的TabletPC上随手勾画。感觉上,他很像一个“Less is More”的信奉者。

很难说这个已经被应用在微软TabletPC中的“数字墨水”技术到底是不是一种识别技术。传统上的手写输入识别,往往急于将用户写下的每个字、每个笔划都一一转化,而数字墨水则是将写下的东西先都保存为以ink为后缀的文件里。从这个角度上,它并没有进行识别。但从另一个角度看,数字墨水能自动根据书写的内容将其分为正文、随手涂鸦、表格和图表等类型,这实际上也是一种识别,或者说是“更高级更智能的识别”——因为它不但可以缩短系统处理输入数据的时间,还能够减少因为不能识别而产生的错误。

以往Office中的Word带有修订功能,可以将修订前后的内容一起呈献在用户面前。“数字墨水”与Office文档或邮件也能建立起类似修订与正文之间的关联,但用手圈划出来的地方,远远要比原来的修订醒目,也更加符合人们的书写和阅读习惯。曾经是浙江大学心理学系教授、博士生导师的王坚开玩笑说,老师和学生可能是最喜欢“数字墨水”的人群之一——这会让他们批改作业的过程变得简单而高效。当然,满天飞的老总也会因此而高兴:这样,他们在自己的掌上电脑上,也能够签署和批阅文件了。

最笨和最聪明的“翻译”

面对一本长达800页的英文技术说明书和7天的翻译期限,你会怎么办?光统一术语就够你烦的。这种时候,以周明研究员为首的自然语言组开发中的机器翻译系统,可能会提供极大帮助。

这可能是最笨的翻译系统:最开始时候,它连一个字、一个词、一个用法都不知道。面对像“This is a car”这样简单的句子,也一点办法都没有。但它有惊人的学习能力,只要你翻出一句,以后遇到相似句子,它就会自动给出翻译——“这是小汽车”,绝对与前面的一字不差。别小看这一字不差,在说明书或指南的人工翻译中,这个统一过程麻烦大了。

该系统能够基于统计而非分析地“理解”句子的结构和成分,找出它们的逻辑关系,然后再加以翻译。接触的例子越多,翻译的文章越长,它的自适应性就发挥得越出色。目前微软内部已经在使用这一系统进行Office和Windows帮助文件的汉化工作。

SMART:更快,更好,更多

李世鹏和他的网络多媒体组最重要的工作,都与缩写为SMART的自扩展媒体自适应和鲁棒传输(Scalable Media Adaptation and Robust Transport)相关。听来拗口,其实并不难理解,“简而言之,SMART就是根据你的带宽和网络的拥挤状况,自动调整你所接收到的内容。你用的是宽带,自己独占带宽,那么我传送给你的视频分辨率就高一些,声音的质量也好一些。你用PDA上网,信道堵塞,我传送给你的数据质量就低一些,以保证传送过程的流畅,同时减少出错。”李世鹏解释道。

SMART编码技术的应用极为广泛,它的超强纠错能力和自我调节能力,不仅使同一网络中的不同设备可以依据各自情况找出最佳的接收数据方式,还解决了同一设备跨网络时的转换问题。它的进一步应用,还将为我们提供新的数字版权管理及安全保护方法以及新的多媒体数字水印。

阅读更多更全周刊内容请微信扫描二维码下载三联中读App,注册就有红包哦!

版权声明:凡注明“三联生活周刊”、“爱乐”或“原创”来源之作品(文字、图片、音频、视频),未经三联生活周刊或爱乐杂志授权,任何媒体和个人不得转载 、链接、转贴或以其它方式使用;已经本刊、本网书面授权的,在使用时必须注明“来源:三联生活周刊”或“来源:爱乐”。违反上述声明的,本刊、本网将追究其相关法律责任。

    相关文章

已有0人参与

网友评论

用户名: 快速登录

《立冬》现已上线即刻前往 App Store 搜索“三联生活节气”体验更多精彩。

《霜降》 《寒露》 《秋分》

微博@三联生活周刊
微信:lifeweek
扫描下载三联中读App
三联中读服务号