4
接下来,我要给你讲两个简单的故事,其中一个你可能已经听过,另外一个你应该还没有。 1979年,年轻的史蒂夫·乔布斯去参观了Xerox PARC,传说中的在加利福尼亚州帕洛阿尔托R&D实验室,并目睹了现在所称的图形用户界面的一些示范。一位PARC的工程师,使用一个原型鼠标来导航,计算机屏幕云集了图标,下拉菜单以及在桌面上相互重叠像纸张的“窗口”。这和乔布斯以前见过的东西完全不同。 他说,“很明显,以后每台计算机都会以这种方式来工作。”
传说是,乔布斯跑回苹果总部,指挥一个团队着手复制和提高,他刚刚在PARC所看到的东西。就是这样,个人计算近40年发展迅速,经历了很多,从第一台Macintosh一路攀升到iPhone。这种计算视觉方式结束了命令行的苛刻、文字为主的界面的暴政;并把我们带进一个电脑越来越简单易用的世界里——只需用鼠标定位、单击并拖动。
在不太遥远的未来,我们回头想想和PARC有关创世神话,可能会感到兴奋。在乔布斯访问PARC的时候,一个独立的团队正在研发一种完全不同的人机交互模式,今天我们称之为对话用户界面。这些科学家设想了一个世界,可能在几十年以后,这种电脑将变得超强大,以至于需要用户记住针对每一个动作的,一组特殊的命令或工作流,否则将用不了电脑。他们想象,我们会用你来我往的对话框来把事情做好,而不是让计算机协同工作。而其页面将是普通的人类语言。
该组其中一名科学家叫罗恩·卡普兰,一个粗壮、说话轻声细语、留着山羊胡子和头发稀疏的人。卡普兰是相等部分的语言学家、心理学家和计算机科学家。他说,早在上世纪70年代,他的团队在草拟对话用户界面的一个关键组成部分的工作走得相当远;他们七拼八凑出了一个系统,允许你通过正常的英语计算机交换信息类型,来预订机票。但是,该技术还不能大规模、系统地工作。 “这样的成本太高了,可能,每个用户将要花费一百万美元。”他说。他们需要更快、更分布的处理方式和更智能、更高效的电脑。卡普兰认为这将需要大约15年。
“四十年后,”卡普兰说,“我们准备好了。”事实上,世界也准备好了。
今天,卡普兰是Nuance通讯的副总裁和杰出的科学家,也许还是语音界面业务的最大功臣:福特的汽车同步系统是基于其发展的,还对Siri的发展至关重要,和几乎所有行业都具有合作关系。但Nuance如今发现自己身处一个拥挤的市场。几乎每个大的高科技公司,亚马逊、英特尔、微软和谷歌,都在追求对话用户界面:卡普兰和他的同事们几十年前在PARC设想。几十家初创公司也参与其中。所有公司都希望在人类与技术的关系强大的转变之中拔得头筹。这些公司相信,不久后的一天,你会跟你的小工具说话,就像你跟朋友说话一样。而你的小工具会回答你。他们将能够听到你说什么,弄清楚你的意思。
如果你已经在今天的技术浸淫,这些新的工具将延长你的数字生活,到图形用户界面不能安全、愉快、礼貌使用之外。而你和设备之间日益剧增的对话性质,将使你和技术的关系,变得更亲近、更忠实、更私人。
但这种转变影响最大的将是硅谷的核心受众,其他人则会感觉很好。史蒂夫·乔布斯在在1979年看到的图形用户界面(以下简称GUI),是扩大计算机市场的一种方式。但即使是GUI的作用下,仍留有大量的人没有使用计算机。虽然GUI是优雅和高效的,人们仍然需要学习计算机语言。如今电脑终于学会如何说我们的语言,数以亿计的人将高科技有新的认识。
语音界面虽然已经存在了多年,事实上,迄今为止,它们都非常愚蠢。我们不必纠缠于自动电话分支系统,例如:如果你是打电话来进行付款的,请说“支付”。甚至我们更先进的语音界面都依赖讲话,但不知何故缺席语言的力量。如果你问Google Now,纽约市的人口有多少,它会乖乖告诉你。如果问帝国大厦的位置,它会乖乖回答。但加上逻辑的一步,问它有帝国大厦的城市的人口是多少,它答不上来。同样,把Siri逼的太紧,它也会让你参考谷歌搜索。任何人看过柯克船长和进取号的计算机对话,或托尼·斯塔克与虚拟助手贾维斯戏谑的电影场景,都忍不住会对现实失望。
可是现今,问问硅谷周围的人,你听到同样的答案:现在不同了。
六月初炎热的一天,SoundHound首席执行官Keyvan Mohajer,向我展示了一个原型,近10年来他的公司一直在秘密研究的新应用程序。你印象中的SoundHound,是一个流行音乐识别的应用程序,如果你对着它哼唱一首歌,它可以识别出歌的名字。事实上,该应用主要是助长Mohajer真实的梦想只是一种方法:创造世界上最好的基于语音的人工智能助手。
该原型叫Hound,其能力是相当惊人的。Mohajer拿着一个黑色的Nexus,点击了一个蓝色和白色的麦克风图标,然后开始问问题。他从简单入手,问了柏林的时间和日本的人口。很基本的搜索问题,接下来,画风就变了:“它们之间的距离是多少?”该应用程序理解了上下文并回答,“大约5536英里。”
然后Mohajer微笑着,紧张兮兮地开始了复杂性不断升级的问题攻势。他要求Hound计算一百万美元的房子,每月按揭付款多少钱,然后应用程序立即问他利率和贷款额,然后说出了答案:4,270.84美元。
“太空针塔所在国首都的人口是多少?”他问。Hound比我还快得知,Mohajer在问华盛顿特区的人口,用其机器人的声音道出了正确的答案。 “日本和中国人口和首都是哪里,他们的领土是多少平方英里和多少平方公里?另外告诉我有多少人生活在印度,德国、法国和意大利的区号是多少?”Mohajer一直不断在问问题,导致上气不接下气。而Hound正确回答了每一个问题
Hound现在处于测试阶段,可能是迄今推出的速度最快、功能最全的语音识别系统。虽然目前它有显著优势,因为它可以同时执行语音识别和自然语言处理。但是,被其他系统赶超,只是时间问题。
毕竟,其基本成分——强大对话界面必需的卡普兰所称的“门控技术”,现在基本上有钱就能购买。这是一个技术融合的经典故事:在处理能力、语音识别、移动通信、云计算的发展和神经网络在大致相同的时间都飙升至临界点。这些工具终于够好、价格便宜、容易访问,使对话界面实时、无处不在。
但不只是对话技术终于可以构建,还有持续增长的需求。随着越来越多的设备上线,尤其是那些没有屏幕的,例如你的灯具、烟雾报警器,我们需要一种方法来与它们进行交互,不需要按钮,菜单和图标的方法。
同时,乔布斯用GUI建立的世界正在达到瓶颈期。我们非常强大的屏幕界面,每一个可以想象的特点都需要通过手工编码、图标或菜单选项。想想Photoshop或Excel:两者都十分强大,使用起来需要通过正确的键盘快捷键、菜单树和超难找的工具栏。如果你只是想坐下来悠闲地裁剪照片,那么祝你好运。 “图形用户界面已经到顶,”卡普兰说, “现在已经是超负荷了。”
这就是在虚拟助理市场蓬勃发展的原因:它是来拯救你的,当你淹没在屏幕上打开的七个窗口,五工具栏和30个页面里,并作为应用程序和设备之间的联络人。
至少在开始的时候,这些新的增强型虚拟助理背后的想法是,他们将简化复杂的,让人疲倦的多步骤:通过下拉菜单,复杂的工作流程,并在应用程序间切换。你的助手会知道手机上每一个应用程序的每一个角落,并在你的口语命令下切换它们。而随着时间的推移,他们也将了解新的信息:你。
让我们快速解除一些误会:对话技术是不会灭了触摸屏,甚至是鼠标和键盘。如果你是桌面计算机的忠实用户,你可能不会变。 虽然你可能会经常问虚拟助理,裁剪工具在哪里来着?
但是,对于某些群体的人,对话界面的崛起可能会在很大程度上,会成为绕过熟练GUI技术的理由。例如,年轻人已经跳过键盘,通过麦克风来输入文本。 “他们就是不打字。”语音消息应用Cord的CEO和联合创始人Thomas Gayno称。结合其他地方的年龄谱,对有些人来说,图形用户界面从来就不管用。对视障人士、老人而言,听见有人形容现代计算机界面为“直观的”,一直是有点可笑的。
克里斯·莫里很艰辛才明白了这个道理。在2010年的夏天,当时24岁的他在帕洛阿尔托的朋友家借住,并在一个叫ImageShack的创业公司实习,刚刚辍学博士课程来这里追逐硅谷梦。一天晚上,在他下班回家的漫长路上,他意识到自己的处方眼镜不管用了。医生告诉他,他患了斯特格氏症,一个视力下降,最终会失明的疾病。
曾经想在高科技公司创一番事业的莫里,立刻不得不考虑,如果失明了他将如何使用电脑。但对于美国20 多万盲人来说,使用电脑只有一个选择:一个30多年前的技术:屏幕阅读器。
屏幕阅读器系统要花费数千美元,并通过需要几十个小时的培训。 “你需要上两个课程,才能学会用谷歌搜索。”莫里告诉我。随着数字环境变得越来越复杂,屏幕阅读器就变得越来越难用。“他们太可怕了。”莫里说。
随着他的视力开始走下坡路,莫里把自己沉浸在盲推特(没错,有盲推特这玩意)和辅助运动里。而在同一时间,他隐隐意识到,更好的东西——首次专为语音设计的界面,将在硅谷出现。
于是,他开始着手为盲人研究技术。莫里创办了一家公司:Conversant Labs,希望打造以声音为先的应用和服务。该公司的第一个产品,是一个名为SayShopping的iPhone应用程序,它提供了一种完全通过语音就可以从Target.com买东西的服务。
2014年秋天的某一天,毫无预兆,亚马逊宣布了一项名为回声的新产品。该产品的角色被命名为Alexa。回声使用所谓的远场语音识别到呼唤它的声音,甚至在有点嘈杂的房间没问题。这个想法是,回音属于你的客厅、厨房、或者卧室里,你会和它说各种事情。
这十分有趣,试图让没有内置可视界面的科技成功。科技媒体都对亚马逊这个“神秘”的新产品感到不解。
当我在2014年开始使用Alexa时,它可以告诉我天气,回答基本的事实问题,列一个后来将出现在我智能手机上购物清单,听我的命令播放音乐,没有什么太超然。但是Alexa迅速增长,变得更聪明更好。它熟悉了我的声音,学会了有趣的笑话,并开始能够同时运行多个计时器(当你在煮满汉全席的时候,就非常方便了)。从最初测试版的发布,到2015年公开发布的短短7个月里,Alexa从可爱却无奈,到真正、一直实用。我认识了它,它也认识了我。
这引出了对话高科技更深的道理:你只有在与它个人关系的过程中,才能发现它的功能。在同行业中的大玩家都意识到这一点,并试图给他们的助手个性、魅力、适当的距离,简而言之使他们,讨人喜欢。
在研究中,微软、Nuance和其他公司都得到了同样的结论:一个好的对话助理,只有当它无处不在,当它可以在多种环境里了解你:你的习惯、你的好恶、你的日常和时间表,它才是真正实用的。
via wired
雷峰网原创文章,未经授权禁止转载。详情见转载须知。