自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

本文作者：刘芳平

2017-01-13 20:35

导语：雷锋网邀请了小小牛创意科技创始人，自然人机交互技术国际专家曹翔，来讲解自然人机交互到底“自然”在哪儿？

无论是开创智能手机时代的 iPhone，还是如今很热门的 VR/AR 和人工智能，再到苹果新 Macbook Pro 的亮点 Touchbar。人机交互的创新是消费科技产品进步的核心。

而在这个领域，近些年最流行概念的大概就是“自然人机交互”了，苹果多点触控交互设计，VR/AR 里的动作捕捉、空间定位，人工智能产品时常用到的语音交互，都强调 Intuitive interface，也就是直观、自然的交互体验，不需要太多学习就能上手。

但如果要推出一个自然人机交互设计，到底如何才能体现其中的“自然”这个词呢？实际上，雷锋网发现，当下许多号称自然的产品交互，并没有得到用户青睐，为产品加分，反而成为被诟病的对象。

如何破解自然人机交互中的自然，是许多产品开发者需要掌握的知识。为此，雷锋网邀请了小小牛创意科技创始人，自然人机交互技术国际专家曹翔，来讲解自然人机交互到底“自然”在哪儿？

嘉宾介绍

曹翔，博士，小小牛创意科技创始人，自然人机交互技术国际专家。曾任微软研究院研究员，联想研究院总监、主任研究员。清华大学计算机系学士，加拿大多伦多大学计算机系硕士、博士，英国剑桥大学Fellow。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

以下内容整理自曹翔在硬创公开课的分享。

公开课视频：

自然人机交互（NUI）成了这些年业内的时髦词，手势、语音、触控、眼动……各种新的界面操作方式从实验室里飞进了千家万户。可到底什么样的界面才算得上自然？是不用鼠标键盘，看着很炫的，还是有更微妙的含义？根据自己在人机交互领域研究的经历，以及从同行那里得到的许多启发，聊聊对自然人机交互的理解。

常见的理解

不管是有意识的还是无意识的，谈到自然人机交互，人人心中都有一个或清晰或模糊的理解。这些形形色色的理解都各有各的道理，但往往又有不尽然的地方。要探讨什么样的界面是属于“自然”的，就不妨先从人们常见的一些理解出发，看看它们各自正确和不足的地方在哪里。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

自然人机交互等于“新”模态界面吗？

的确，许多自然人机交互的成功例子，譬如微软的体感游戏设备（Kinect）、Surface交互桌面和任天堂的Wii游戏等等，都运用了手势、语音、多点触控等交互模态，甚至同时结合了多种模态。那么，是否使用了这些模态的界面就一定是“自然”的？恐怕不尽然。

我想不少人都能举出使这些“自然”模态不自然的场景。譬如语音操控：很适合于私人空间，而在公众场合却可能带来尴尬。再如手势界面：大家对电影《少数派报告》中主人公挥舞双手操作大屏幕界面完成每日工作的场景也许不陌生，这几乎成了大众心目中自然手势界面的代表。

然而据这一场景的设计者说，在电影拍摄过程中，身体健硕的男主角却因为不堪长时间举着双手的疲劳，不得不用钢丝吊着胳膊完成拍摄。这直接印证了手势界面对于日常工作场合并不一定自然，尽管它在Kinect家庭游戏中早已备受欢迎。相反，一些较为传统的交互模态，譬如鼠标和键盘，在其特有的使用情境中却有着强大的生命力。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

其实，自然人机交互并不是一个崭新的概念，而是自计算机诞生之日就存在，并不断地发展。作为计算机同行，一定对计算机界面更迭的历史都耳熟能详：从穿孔卡片到命令行再到图形界面，每一代界面的出现都比前一代更为自然和直观，但也都花费了相当长时间才成为主流。

与之前的主要针对桌面计算机和工作环境而设计的界面相比，今天的用户界面所面临的是多样化的使用情境：移动、游戏、社交等等不一而足。而在何种情况下选择何种模态进行交互才是最自然的，这是每个人机交互从业者必须面对的问题。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

自然人机交互等于模仿人的界面吗？

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

在科幻电影中，经常会出现计算机模仿人的语音与用户进行交流的场景，有时计算机甚至会模拟人的形象，以虚拟助手的形式出现在屏幕上或现实世界中。

无疑，这样的拟人化界面可以让用户与计算机交流就像与他人交往一样，很多情况下的确会感觉更为自然和亲切，甚至有可能在人与计算机间建立情感上的联系。它特别适用于用户其它交互渠道（譬如手眼）被占用，或是需要计算机提供智能化帮助的时候。

但这种方式也有局限，在日常生活中，许多时候我们所做的事情并非与人交流，而是直接去操纵物理世界：比如直接拿起筷子吃饭就会比告诉别人怎么把食物喂到嘴里更为自然。同理，对于某些活动，用户直接操控界面也会比间接地通过拟人化交流更为自然和高效。

自然人机交互等于模仿物理世界的界面吗？

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

那是不是模仿人与物理世界交互方式的界面就更加自然？实际上，当前通行的许多界面模式，都是建立在物理世界概念的基础上的，比如Windows图形界面和文件夹组织结构，就是对真实办公桌的一种模仿。还有不少研究人员探索了如何把物理模型引入用户界面用于驱动交互的过程，甚至把真实物体作为界面的一部分，通过操作物理实体与计算机进行交互，即实体用户界面（tangible user interface）。

这些基于物理世界规则的界面能让用户完全地按照操作真实物体的方式与计算机交互，省去了不少学习时间，在一定意义上提供了最大限度的自然。

但如果纯粹模仿物理世界，也会遇到瓶颈，那就是真实世界本身受到各种物理定律和客观条件制约，我们在复制它的种种直观属性的同时，也复制了它的种种限制与不便。这在某些情况下恰恰牺牲了计算机的灵活性，使用户失去了软件界面本来所能提供的自由空间。

而在这一点上，大家熟悉的多点触控界面中用两个手指操作图片或者其它虚拟物体的手势，并没有拘泥于物理操作，而是在平移和旋转这两个完全符合物理常规的操作之中，加入了缩放这一在真实世界几乎不可能的操作，形成了一个无缝的自然交互方式——多数用户在使用它的时候可能甚至从来没有意识到这一点。可以说，自然人机交互应当源于真实，高于真实。

自然人机交互等于不用输入设备的界面吗？

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

如果我们关注最近的一些被称为自然人机交互的产品，无论是使用手势、语音、触控，甚至是脑电波，他们的共性似乎是不需要专门的输入工具，而用身体的某一部分来直接进行操作。这是否是一切自然人机交互的大势所趋？

一方面，人的手和身体本身就是极为灵活的工具，不需辅助就可以胜任许多通用型的任务，这正是今天许多无需输入设备界面的基础；但另一方面，物理工具的发明恰恰标志着人类的进化。

各式各样的工具造就了人类从事各种专门活动的能力，而每一种工具的设计和使用方法都最大可能地为其支持的活动做了专门的优化，本身就是“自然人机交互”的典范。

最好的例子莫过于形形色色的笔：比起用手指写字，用笔写字实际上更好地利用了人多个手指灵活配合和控制的能力，大大提高了书写的准确和丰富性。同样的道理，在今天的计算机使用中，特别是对于许多专门性的活动，一套设计合理的输入设备（例如数字笔）也可以延展人的能力，从而提供更加自然的界面。

上述各种理解有一个共性，那就是它们都是将某一类特定的交互模式等同于自然人机交互。而实际上，“自然”并不是一个绝对的概念，无法抛开情境来下结论。上述提到或没提到的每一种交互模式都在某些使用情境中成为自然界面的典范，但在另一些情境下却又可能显得不那么自然。

在尚未了解界面所要支持的用户、活动和环境的前提下，几乎无从判断它的自然与否。正如人机交互研究的一位先驱比尔•巴克斯顿(Bill Buxton)所说，“不论是什么东西，都对某些事情最好，而对另一些事情最糟。”

那么，自然人机交互能否有一个普适的标准？

一些研究人机交互的同行提出了一个有趣的问题：自然用户界面这个词，究竟是自然的“用户界面”还是“自然用户”的界面？乍看起来这是个文字游戏，答案也许并不重要。但这个问题的提出，为回答前一个问题指出了一条方向，那就是对自然人机交互的衡量，并非取决于界面的交互模式，而是取决于用户自身的体验。

自然源于体验/经验

在英文中experience既有体验又有经验的意思。而在讨论自然的用户体验时，正要从用户的经验说起。这乍听似乎有些矛盾：自然人机交互不应该要求用户没有任何经验吗？不错，对界面本身而言，让用户在没有经验的前提下上手，让学习过程尽量缩短，这正是自然人机交互的主要优势之一。而这里要谈的，是另一种经验——对现实生活的经验。

具体解释之前，先讲讲我的两位人机交互同行亲身经历的故事。

一位印度的同行为当地用户设计了一组用数字笔操作的界面。在进行用户测试时，他对其中一位用户说：“请拿起笔碰一下屏幕。”出乎他意料的是，这一看起来十分简单自然的操作，居然出了问题：这位用户没有用笔尖，而是把笔横过来整个贴在了屏幕上！经询问才知道原来他不识字，也从没用过笔。

而另一位欧洲的同行为家庭用户在交互桌面上开发了一套软件，包括一些直观的手势交互，例如用两个手指相反方向移动做打开的手势来打开一个虚拟的储物箱。当他向用户家庭演示时，他想考考这个家中正上小学的孩子：“你试试看怎么打开这个箱子？”孩子二话不说，直接用食指在箱子上双击！

从这两个例子可以明显地看出，对于用户而言什么是自然并不等于与生俱来，而是在很大程度上取决于它们之前的生活经验：前者因为没有用笔的经验，“自然”的操作对他毫无自然可言；而后者由于从小与电脑和鼠标打交道，“不自然”的操作对他却是再自然不过。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

同样的道理，我们平时觉得自然的事情，不论书写、语言、手势，还是触摸，恰恰是来自于若干年积累下来的经验或者有意识无意识的人为训练，当然也包括对真实世界物理规律的经验，和对已有计算机界面模式的经验。这些训练和经验，有些是较为广泛地为所有人所共享的，比如物理规律；而有些则与用户所属的社会文化群体息息相关，正像上边所举的两个例子。

由此可见，如果想让用户尽快上手，恰恰要建立在用户已有生活经验的基础之上。缩短了的界面学习过程，正是因为借用了此前若干年用户学习其它相关事物的过程。于是，了解目标用户群体已有的经验，并试图让交互方式与这些经验相一致，就成了设计自然人机交互的关键。

实际上，在人机交互中非常强调的“隐喻（metaphor）”概念，正可看成是这种思想的一种体现。隐喻指的是把用户界面中的概念比拟为一种人们熟悉的概念或现象，用于解释其交互方式，例如将图形界面元素比喻为大家熟悉的桌面、窗口等等。隐喻越贴切，越为用户熟悉，往往就意味着界面越自然。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

当然，界面设计不可能也不应当完全局限于人们已有的经验。有时，界面所涉及的活动并没有直接对应的现实经验可以借鉴；有时，拘泥于已有经验会失去了界面设计的灵活性和创新空间。

如何确保用户界面在超越已有经验的同时，又不失其自然呢？这里要涉及到人机交互中另一个与用户经验息息相关的概念，即思维模型（mental model）。它是用户脑中对所进行的具体活动机制的一个抽象，源于经验，又高于经验。

还以多点触控中的两指操纵手势为例，根据物理经验，真实的物体无法被缩放，但基于平移和旋转的经验，用户抽象出的思维模型则是无论手指怎样移动，物体上固定的两个点始终对应于两个手指的位置。缩放操作正是这一思维模型的直接的推广，而这也是广大用户在使用这一操作时没有感到任何不自然的原因。

由此可见，理解用户已有的思维模型，并加以外推，不失为设计自然人机交互的有效方法，也可以覆盖大量的用户原本没有经验或预期的使用情境。这样设计出的界面可以说是“情理之中，意料之外”。

基于这些讨论，不妨试着给自然人机交互一个定义：自然人机交互是与目标用户群体在预期使用情境下已有的经验或思维模型相符的用户界面。虽然与许多常见理解相比，这个定义少了“新”和“炫”的成分，但它在某种意义上也许更加贴合自然的本义：往往是“无招胜有招”，一个理想的自然人机交互应当能让用户的注意力完全集中在所要从事的活动上，而忘记界面本身的存在，或者说，界面变得“透明”了。

实践尝试

下面介绍一些我们在自然人机交互研究方面的尝试。虽然这些例子未必在自然方面做到了完美，但希望能以它们来直观地映证前文的一些思路。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

所握即所得的数字笔

数字笔在设计、艺术等行业内广泛采用，相比鼠标等其他输入设备，对于从事视觉创作人群的自然性不言而喻。但今天的数字笔已经完全自然了吗？如果我们看看现实中这些人群用于创作的物理工具，却远不止一支笔这么简单。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

他们要用到的有钢笔、毛笔、素描铅笔、刻刀、尺子等等工具。虽然这些工具形状相仿，却每一件都是为了特殊的功能而专门设计的，让使用者用起来得心应手，最为自然。

虽然从软件上用同一支数字笔在画板上模拟各种工具的功能并不困难，但却在一定程度上缺失了每件物理工具使用的自然性。专用工具的自然，与通用工具的便利，有时看起来确实是一对矛盾。如何在这两者间取得平衡？答案依然要来自对现实经验的观察：当人们使用物理工具时，手握的方式都不尽相同，钢笔和毛笔的不同握法就是最好的例子。

而每种握法，也正是为了最舒适地完成相应的功能而优化的结果，这些握法本身就是自然性的体现。由此，如果我们能在同一支数字笔上，通过识别用户不同的握法来自动提供不同的功能，那么用户就不必再刻意地选择不同的工具（无论物理工具或是虚拟工具），而只需要关注想要完成的功能，相应转换到最为自然的握法，便可以直接开始使用这一种功能。

这样，用户不管从思维上还是操作上都跳过了工具选择这一步，可以说，工具变得“透明”了。基于这一想法，我们研制了一支“所握即所得的数字笔”，通过在笔上附加多点触摸和方向的传感器，可以识别出用户十余种不同的握法，并在数字画板上提供相应的功能：钢笔、毛笔、印章……甚至超出视觉创作的范畴，譬如模拟笛子等不同的乐器，从而使用户使用数字笔的体验更为自然和丰富。

ShapeTouch: 从多点触控到形状触控

多点触控中的两指操纵手势作为自然人机交互设计的范例，本身也面临着挑战。试想一下，如果不是在触摸屏或交互桌面上，而是在物理世界中操纵真实物体时也同样只用两个手指去移动和旋转，是否还那么自然？

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

人手是一件极为灵活的工具，我们在与物理世界交互时，会根据物体的特性（形状、重量等）和操作的目的（精细或是粗略，局部或是整体，等等）而采取不同的接触方式。我们的手能够完成的极其丰富的操作，远远超过多“点”触控的范畴。

那么，怎样才能让对虚拟物体的触控操作也像物理世界中那样丰富而自然？关键在于对于触摸输入的理解不能再简单地将其抽象为多“点”触摸，而是要保留接触面完整的形状与大小的信息并由它来决定交互的结果。因为在物理世界中，正是这复杂多变的接触面把人手的各种操作传递给了物体。

ShapeTouch系统正是为了展示这一概念而推出的。它通过对人手接触交互桌面的形状、面积、以及运动信息的分析，模拟出对所接触到的虚拟物体所应产生的作用力，譬如推力、压力、摩擦力等，从而产生出与物理世界相符的自然操作效果。

为此，用户不仅可以把若干年来与物理世界打交道积累下的丰富经验直接运用于与虚拟物体的交互，还可以像在物理世界中一样不假思索地将各种动作同时组合起来，完成更为复杂的操作。而这些操作方式并不仅局限于图片等有着具体物理对应的虚拟物体，也可以应用到按钮、滑动条等界面元素中，把用户来自具体物体的思维模型扩展到抽象的操作中去。

自然人机交互到底“自然”在哪儿？| 雷锋网公开课（附视频）

Q&A 环节

Q：谜镜（雷锋网注：小小牛产品）的实现原理是怎样的呢？这款产品挺有意思的。

A：谜镜借荐了孩子认识世界的方式，孩子没有大数据，他不认识世界上每样东西，但他会理解世界上一些本质规律，比如物体的形状、颜色、运动方式。我们也是用这种方式把世界上的东西分解成更加本原的元素，通过引擎去应对孩子创造的东西。这些东西可能是完全没有见过的，但没有关系，只要它符合基本的规律，通过计算机视觉和图像处理，我们可以把它们分析出来，就可以跟它进行交互。

Q：很多公司都想在触摸屏上应用触控笔，但触控笔的应用却一直很窄，这是为什么？

A：触控笔这件事是个很好的问题，就像我刚才提到的。笔，由其是数字笔，适合非常专业化的工作。设计师几乎离不开触控笔，笔实际上非常适合做一些非结构化的创作，比如画画，或者是不遵从一定排版的创作。但反过来说，我们大部分人在电脑上做的是结构化的创作，比如输入文字，排版，做表之类的。这种情况使用鼠标、键盘作为输入设备效率会高很多。所以还是那句话，触控笔适合非结构化输入，鼠标键盘适合结构化输入。

Q：自然人机交互最近的研究热点和研究趋势是什么？近期跟VR相结合的研究工作有哪些？

A：人机交互的一个大趋势，不管在什么样的情境下，目前一个共同的趋势就是虚拟与现实的边界越来越模糊。也就是大家所说的增强现实的概念。

VR对新的交互方式有非常大的需求，因为在VR的环境下鼠标键盘是用不了的，不管是手势、语音、眼动，刚才提到的各种方式，其实大家都在探索怎么去跟VR结合。当然也并不是简单地结合，同样要考虑使用情景。

另外比较有意思的是，现在不再是单纯地把环境用虚拟去替代，而是在VR环境里引入现实世界的一些元素，比如在头盔上加上摄像头去捕捉身边环境的元素，放置到虚拟场景里。甚至于它会利用到身边实体的物体来生成一些触感。这方面有一个比较讨巧的办法，通过识别真实场景中的物体，再生成一个虚拟世界的代表，来制造触觉，也是比较有意思的一个研究。

当然我刚才说是跟交互方式有关的研究，而关于VR交互体验的研究已经是存在几十年。其实目前的VR从生理上就有个不太自然的地方，现在VR的立体视觉是通过两个眼睛看到不同的图像来生成的，但在真实物理世界里，其实我们观察一个3D的世界，并不仅仅是通过这一个信息，还会通过双眼的聚焦，还有两个眼睛看的方向在某一点的汇聚，等等。而目前的VR显示无法模拟所有这些方式，所以也造成眩晕等现象。这也是新的显示技术，所谓光场显示在解决的问题，让显示更加自然。

Q：输入中语言和非语言交互，差距很大吧？如果二维屏幕之后很难再有统治性人机界面，关键在于人的大量交互方式属于语言交互，比如自然语言和编程语言都是。

A：语言和非语言交互各有优劣，语言非常适合做抽象概念性的交流，比如讨论一个哲学问题，除了语言没有别的办法了。但反过来说，语言也有非常不擅长的事情，比如做一些空间上的操作，假如你不能用鼠标也不能用手了，那么要用语言操作去点屏幕上某个地方会非常累。

Q：您怎么看苹果在Touch Bar上，以及3D Touch做的努力呢？

A：我觉得Touch Bar也好，3D Touch也好，是交互中另外一个原则的体现，就是高效的但需要一定学习成本的方式。因为Touch Bar和3D Touch对应的都是比较抽象的交互方式，并不是像屏幕上选择图标那样，先认识一个图标再选择它，而是把它作为一个快捷方式，脑子里要有一个大概的观念，知道它做了之后会有什么结果，习惯以后效率会很高。

人机交互里有Recogntion VS Memory的概念。有一些操作是基于把所有选项选择呈现在眼前，然后作个选择，有些操作则是要记住一些操作，就不再有选择的过程，是直接把命令交出去。两者各有优劣，前者更加自然，容易上手，后者效率更高，因为你不再面临选择，只需快速做这一个操作就好，但上手成本更高。所以很多时候交互面临选择，是更在乎易学还是高效。而这也和面对的场景有关，初学者和专业人士，前者可能更在乎易学，后者更在乎高效。

这也是为什么现在很多程序员仍然习惯用命令行去操作的原因。

Q：触摸屏之后，您觉得下一个大的人机交互方式会是什么？

A：实话实说，我觉得触摸屏可能是我们见到的最后一种统治性的交互方式了，因为未来的交互情景已经越来越多样化。触摸屏本质上还是一个图形界面交互，跟我们鼠标键盘在屏幕上的图形界面是一样的，相对来说，只要是屏幕的交互它还是可以胜任。但反过来说，未来各种多样化的情景，可能再也不会出现一个像屏幕、图形界面这样相对来说放之四海皆准的交互方式。像语音、手势都会找到它特定的场景，越来越多样化。

刚才提的很多问题都集中在输入的方式，其实我觉得某种意义上电脑能捕获人类的输入方式的种类是有限的，基本上就是触摸、语音、手势这些，人能做的基本就是这样。但反过来说，在输出、显示这些技术上，将来能发挥的空间更大，好比说人眼睛能接收的可能性几乎是无限的，它不仅能接收物理世界的东西，还能接收各种虚幻的影像。尤其在显示这块，我觉得将来能玩的可能性还很多，而且也不仅仅是视觉，还有听觉甚至是触觉。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

7人收藏

专题

雷峰网公开课

本专题其他文章

刘芳平

编辑

微信：liu_fangping

扫描关注作者微信

发私信

当月热门文章