“Johnny-Cab” / Total Recall(1990)

人猿泰山(1932)

来自IMDb:

在这个电影的任何时候“我是泰山,你是简”都没有被说出来。当简和泰山相遇的时候,是简发起了语言交流。她不断地指着自己告诉泰山她的名字,一直到泰山开始重复它。然后她指向泰山,指出自己想知道是不是有什么词可以表示他是谁,就像“简”这个词用来表示她自己一样,直到最后,泰山理解了,并说,“泰山”

看起来人类的沟通结合了文字和手势 --- 泰山和简可以只用语音沟通吗?有着那么酷的发型的他是怎么在丛林中生存的呢?伙计 --- 这完全没有意义。

Jungle Hunt(1982)...totally unrelated sorry :)

个人虚拟助理的故事

当我跟别人讨论自然交互的时候,一些人只是认为语音是所有问题的答案。“不管怎样,谈话是最自然的事情,没错吧?”。是的,谈话很自然 --- 无可非议。但口头语言只是其中一部分而已。

科幻电影总是热衷于使用数码助理来辅助我们的日常事务。很多人就好奇,为什么这不能成为我们日常生活中的通用人机接口呢?但背后的故事并不仅仅关系到语言识别算法的准确率。有一个总是跟随你的管家并不等于你会觉得舒服,如果管家的能力不行的话。为了真正帮上你,他必须能够做一些事情,他还得对主人及其周遭环境有一个坚实的基于上下文的理解。

2001: A Space Odyssey(1968)

可能,这是为什么苹果公司的Siri很实用的主要原因:第一次,助理具备了坚实的上下文理解和能力。Siri知道我,我在哪里,我的联系人里有哪些人,她还可以发送信息,添加备忘,甚至做算术题(在Wolfram Alpha的帮助下)。苹果公司设法把情境(context)提高到了一个有趣的水准。

手势+语音

成人用语音来交流。但如果你闭上眼睛,你能理解的层次将大幅缩水。因为交流的时候我们会注视对方,而且使用了身体语言。很多情况下,身体语言比口语隐含了更多的信息。

想象你去购物,当你被问到你想要哪双鞋的时候,你可能会说“这双”。在这里,你指向的手势和周遭环境表达了需要交流的信息。

现在,我们回到现实。

假设一个应用程序问你要选择哪一项,你只是指向其中一个并且说“这个!”。喂 - 我甚至不需要语音识别都可以做到这个!只是做指向手势的检测和发一些同步的爆破音可能就足够了。而且对任何语言都有效!(就象泰山和简...)。如果你不放弃几十年来在语音识别上所做的工作,你可以简单地用它来大大改善准确率。身体语言在我们的交流情境中扮演了很大的角色。

助理 VS. 工具

另外一个方式来看待现代生活,就是,我们都希望被服务。就像几个世纪前的那些国王。但现在,每个人都将成为国王!

所以想象下国王和皇后坐在一起就餐。他们有5个厨师和10个侍者。环绕四周的这些人负责做苦力(比如准备牛排)或者递上他们够不到的东西。但如果食物在他的盘子里,国王会喜欢拿起叉子自己将食物送进嘴里(叫侍者做这种事显得很尴尬而且怪异)

是的,有时候我们更喜欢自助。这种情况下,我们更喜欢使用工具。

在玩的时候制造一些声音

实际上,接下来我可以进行一个小时的MMI(Multi-Media Interface)的哲学讨论,但你们读这个是为了乐趣,不是吗?那就让我们引入游戏!

目前只有几个结合了手势和语音的游戏体验。如下示例:

  • 即将出品的mass effect
  • 小型独立游戏“", 让你通过喊叫来射击微笑
“砰 砰,我的小孩把我击倒了”
如果你看看正在玩的小孩 - 你会意识到很多时候他们玩的游戏实际上都是角色扮演游戏。他们想象他们是一些英雄并且试着去模仿一些相应的滑稽手势。而且不止手势,他们模拟音效!
  • 射击的时候象牛仔一样喊‘砰 砰’
  • 象功夫大师一样发出‘shhhh, ffff’的声音来模仿难于置信地快的空手道
  • 巫师和其它超自然物发出不同的声音(KAMEAMEA!)
通过分析音频流,我们可以侦测声音,再跟手势相协调,并且赋予一定的意义:
  • 空手道和踢腿配上合适的声音会显得更有力量:你看到一些白色的拖尾效果而这带来更大的破坏!
  • 当玩家说“爆!”的时候,击出去的拳头出现爆破效果
  • 网球运动员击球时的喊叫使得球拍更引人注目
用不着‘收集’魔法卷轴,巫师会给你展示怎么移动和说些什么来启用魔法!
以这样的方式你学会了在游戏假想的虚拟世界中使用的魔法。学习的过程实际上是在玩家的思想中完成的,就像真的在幻想故事中想象一样。
另外一个例子是用声音来触发‘×××时间’慢动作。
想象一个玩家碰到很多敌人正在逼近。他以战斗的姿势站在那里并开始说“ta-ka-ta-ka-ta-ka”。然后系统继续回声。现在敌人和整个物理世界都处于慢动作模式。玩家就可以轻易地揍所有的敌人。时间到,世界回复正常,而所有敌人都一起倒地!

----------------------------------------------------------------------------------------------------------------------------------

译注:这是原作者最近在blogspot上的系列文章《》的译文,为方便中文读者而转过来的。可能的话请尽量阅读原文,原文写得比较诙谐。有翻译不当或错误的地方欢迎大家指正,谢谢阅读。

原文链接:http://michagalor.blogspot.com/2012/02/part-7-me-tarzan-you-jane.html

-----------------------------------------------------------------------------------------------------------------------------------

关于作者 Micha Galor

“当被问到怎么定义我自己的时候,我总是很困惑。我的工作包括软件工程,研究,设计和管理创新的投入。某一天我会简单地回答:一个发明家”

Micha Galor是PrimeSense公司(Kinect的3D传感技术提供商)应用和用户体验组的经理。他的团队专注于自然交互研究,包括对一些可实际运行的概念和展示的原型化,定义未来的人机交互语言等令人兴奋的工作。在PrimeSense之前,Micha领导Zoran(多媒体芯片商)的数码摄影团队,开发了应用在几款热销的拍照手机中的数字图像技术。Micha和他的太太以及两个小孩一起生活在以色列的特拉维夫。