云顶娱乐 > 科技技术 > 「语音交互设计」之 VUI简析| L-insights

原标题:「语音交互设计」之 VUI简析| L-insights

浏览次数:92 时间:2019-10-29

原标题:阿里 AI——智能互动设备的探索设计

原标题:「语音交互设计」之 VUI简析| L-insights

随着智能技术的发展,2016年对话式交互被越来越多的人谈到,对对话式交互的讨论从对话式交互的发展历史,到未来对话式交互的趋势预测和各种可能性,有很多很不错的观点。

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

近来,智能语音交互市场的热度可谓一路飙升。

我所参与的淘宝服务咨询产品阿里小蜜(找到路径:手机淘宝>我的淘宝>我的小蜜)的设计也经历了从对话式交互到界面交互再到对话式交互的发展,本文结合阿里小蜜的设计谈谈在真实的对话式交互应用(主要集中于在线对话场景,不包括电话对话、智能终端对话)体验设计中的一些思考和大家交流。

www.4008.com 1

  • 微软Build大会发布智能音箱Invoke,
  • 苹果WWDC发布HomePod,
  • 百度AI开发者大会发布DureOS开放平台,
  • 阿里人工智能实验室发布天猫精灵,
  • 亚马逊推出语音助手Alexa…

一、在线服务适合对话式交互吗?

很多谈对话式交互的文章都在讨论对话式交互的效率问题,以前点几下就解决的问题在对话式交互里需要好几次会话才能输入完信息,这算更好的体验吗?当然不算,我们也不能为了对话式而对话,更多的需要考虑实际的应用场景。所以,我想先来说说为什么觉得在线服务适合对话式交互。

www.4008.com 2

淘宝在线服务先后经历了2次对话式交互的尝试。第一次是阿里all in无线的背景下,客服产品也开始考虑无线端的布点,因为考虑到无线上用户区别于pc上可以方便看到更详细、更全的解决方案,无线上的用户可能更需精准和自己更相关的回复;再加上淘宝上找客服的入口一直叫“联系客服”,用户也已经习惯了这个入口代表的是联系淘宝的客服,当时考虑到“联系客服”给人的预期也更偏向于有人可以沟通,而不是有页面可以搜索或查询,所以首次提出了使用对话式的交互的方案v1.0;上线了半年后,因为机器人回复不准、内容运营慢、流失率高等因素,再加上即将到来的双十一服务压力增长,在大概2014年11月的时候我们改成了界面交互v2.0。v2.0界面交互的首要目标是提升无线端服务的承载量,所以基于top问题,设计了第二版的“帮助”首页,首页涵盖约70%的用户问题,有效转化提升很多,解决率也提升了很多,后面也看到很多“帮助”产品来借鉴我们的方式,现在在线的依然很多;基本稳定后,我们又开始考虑怎么结合个人的情况,做到首页个性化,来降低流失,提升服务承载量,于是就有了我们的v3.0,但因为技术瓶颈,个性化最后也没持续做下去。然后,就是2015年,ai技术的发展,经过一长段时间的灰度,诞生v4.0。

不过,虽然第一版的对话式版本最后下线了,但积累了很多经验比如交易问题沟通的逻辑树、订单选择、自助流程等在小蜜中得以延续。最后在有一定技术基础的情况下,版本回归到对话式的方式,在大家看来是非常正确的决定,在我看来主要有三点:

首先,用户进入的场景都是有明确诉求的,都是带着自己的问题的,也只是想知道具体问题的解决方案;开放性的输入利于用户表达自己的诉求,而对于问题的解决,用户对自己问题描述的越具体,就越利于自己问题的解决;

其次,因为每个人的问题又具有个性化,而对话式正好非常利于这种个性化的表达,用户可以发送自己的订单,发送自己的截图等所有相关信息提供给客服处理,基于这些个性化的描述,我们才能给出用户想要的针对性的解决方案;

第三,对话能在符合用户寻求服务心智的基础上,很好地承载调用不同服务角色的功能。在线服务单靠目前的智能技术一定是解决不了的,需要将复杂问题通过服务路由,分配给对应的人工处理。以前的服务咨询提供给用户的是服务渠道,如电话客服、在线客服、客服机器人,用户想打电话沟通但打不通,想咨询在线人工要排队,在用户还没把问题表达给客服之前,用户就会因为电话忙、在线忙,而降级为机器人;最后,用哪个渠道服务用户变成用户对渠道的坚持差异。而且这样的情况下,服务资源分配不是按照问题和服务能力在匹配,也就不是最优配置。而事实上,渠道并不是用户最关注的,用户最关注的还是问题的解决方案。对话式的方式把服务的开启方式定义成用户问题的描述,然后基于用户问题来给用户分配对应的服务资源,而用户不需要区分处理渠道,只需要把问题说出来,剩下的谁能解决就交给对话去处理就好了。

综上,判断一个产品是否适用对话式交互,除了一般用户和服务资源视角的思考,更多的也要了解目前你所在产品团队ai技术、业务运营能力是否到位;在服务咨询行业全部用人工基本不太可能,如果ai识别不够,用户描述的再详细也理解不了用户的问题;业务运营能力不够,后面回复的解决方案也会受影响;所以在考虑对话式交互时要考虑在现有的技术是否足够,不够的地方设计是否能做对应的补充,保证对应的体验损失。

5号小蜜:智能互动设备的初期准备

随着智能音箱ALEXA接入超过2万种设备,亚马逊在人工智能领域实现了一次跨界奇迹,离实现“speaking to future”的梦想又更近了一步。另外,据ComScore报道称:苹果iOS 和HomePod 设备的Siri每月拥有超过4000万用户,美国家庭中更是将近1/10已拥有了一位智能语音助手,并且由于屏幕疲劳这个无法避免的问题,智能语音越来越被人们接受,语音交互技术也正变得越来越普遍。

二、提升对话式服务咨询体验的几个设计思考

从对话互动体验的链路来看,对话式交互核心体验主要由三部分组成:用户需求描述和ai理解、回复(含指令执行)、用户使用回复。下面我会围绕这几部分来说说我设计过程中的思考。

在如今智能硬件设备,语音互动的大趋势下,我们针对实体智能互动的硬件,从想法 – 设备 – 技术 – 设计 – 场景,总结沉淀了部分探索经验。

“语音交互将改变我们的生活。”

1.通过快捷标签和情景感知,引导用户描述需求

在我们做v1.0时,虽然对话界面已经很清楚,但是来自己描述问题的人很少。后来了解原因,因为在文字描述问题时,需要思考怎么组织才能被理解,语音输入识别不太准,文本输入不像“搜索”那样大家比较习惯输入的方式是关键词,也不像“电话沟通”那么直接和随意,所以有的人就直接放弃了。

www.4008.com 3

去年4月份在第2版对话式设计中,我们通过快捷标签外化小蜜主要可以处理的事情,让用户可以知道在这里问什么,可以怎么问,也可以把相似的问题引导到我们设定的路径下,避免问题得不到解决,这个也给我们产品带来了明显的转化,在拉取用户咨询语料观察时,也发现用户描述问题的方式和我们引导的很接近,这样做同时也降低了语意识别的压力。去年10月google allo在过程中根据每次对话的内容也加入了关联的问题引导用户走下去;其他产品也都在探索快捷的方式降低用户成本,引导用户走下去。

另外一个重要的部分是情景感知,在服务场景里主要是依据用户的来源和订单等情况猜测用户可能遇到的问题,通过去接近用户遇到的问题来让引导用户提问。

www.4008.com 4

  • “帮我看一下明天的天气“
  • "给我订一辆出租车"
  • “替我放一些爵士乐”

2.是否选用语音作为第一输入方式,需要结合场景考虑对话双方的需求

对于查看接收内容来说文字的效率更高,但对于表达来说语音效率更高。所以在考虑是否用语音作为第一输入方式时,需要考虑对会话双方的影响。

目前技术上语音的识别准确率已经很高了,但是识别一长段话或者连续几句短话连起来理解还是有困难,尤其是面对各种口音的普通话。所以如果你所在的业务场景用户比较偏向于长段长段和机器人对话,那要慎用语音,如果识别不准,带来的体验就很可能是先语音说一遍再去修改,会大大降低使用语音的体验感受。

www.4008.com 5

例如知乎live选择的输入方式,考虑比较偏向于讲师的便捷性。对于提问者选用文本,方便在整个过程中,需要浏览众多不同用户问题的live讲师浏览效率更高,对于讲师提供语音和文本两种,一般讲师都会选择表达的比较有效率语音。

首先交代一下背景:

3.响应快很好,但回复准确更重要

虽然在线咨询中,快速响应是体验的加分项,但更重要的回复的准确。在小蜜中通过语料我们发现用户在描述问题时,比较喜欢半句半句的描述,而我们的回答是单轮回答,描述一出来,只要我们能匹配到解决方案,就会立即吐出解决方案,这样导致用户刚说了半句,解决方案就出来了,再补充描述一句,上下文理解如果做得不够的话,用户的问题就很难回答正确了。

这种情况我们除了去引导用户以正确的方式描述问题外,也在考虑当识别到用户正在输入时,等一等再回复,等用户输入完了,把已经描述的内容联系起来看一看再回复。

在阿里小蜜语音助手的形态下,延伸出了很多智能相关的研究和探索,其中智能硬件也是我们想要去发展的一部分。在这种情况下,以“5号小蜜”为名称的智能互动硬件设备应势而生。

在Gartner总结的2017年几大趋势中,virtual assistants处于热点的最高位,在2018年也是居高不下。

4.结合用户心智和最短路径来设计会话内容

在对话式交互体验里,问答是用户和产品的最关键的接触点,用户通过对话的轮次来判断获得服务的便捷性,通过收到的回复内容来感知服务质量,所以对话的路径和回复的内容决定了体验的好坏。

对话相对于界面表单等,一次获取的信息少,但对话轮次太长,每一步都有可能导致用户的流失,所以巧妙的问法是对话式交互里非常主要的功课。记得小冰在微博之前有个玩法,6个问题问出你心里想的是谁,就是一个通过会话路径设计来改变体验的例子。

在小蜜里,我们针对服务问题都是一个个场景的深耕,我们会和业务一起设计每种情况下应该走哪条路径,尽可能缩短用户到达解决方案的路径,以便用户更快的获得解决方案。虽然在用户端只有2-3步,但背后的信息收集和过滤有n多步,正式因为这些不同分支的设计,才带来结果个性化呈现,让用户得到一个基于自己当下情况的专属方案。改变了以前咨询帮助中不论你问什么,都是给你一长段各种情况下的完整解决方案,然后用户再从中找到自己当前情况下要做的。

www.4008.com 6

另外,除了最短路径也要考虑到用户心智,一个问题一般有多种问法,我们需要挑选其中让用户感受更好的路径,以降低用户的流失。这个可以通过一个相亲对话例子来感受,“你有房有车吗?”和“你家车库多少钱一平?"。

当然,经过用户允许,记住用户的信息,下次直接提供服务,甚至代办是更好路径设计。

(名称解释:在决定做这个产品的初期,是以落地到公司的5号行政楼为场景的前提下进行的设想,所以叫“5号小蜜”)。

www.4008.com 7

5.考虑回复的针对性

会话输入具有开放性,所以人在会话的描术可能很随意,有可能前面说的是事情A,下一句就变成了事情B,下一句又回到了A,在人与人的对话里很常见,有时也会出现理解歧义,然后就很随意的补充一句“我说的是事情A哈,我再说一下事情B”,多个事情是可以并行聊的。但出现在机器人里就是一个很大的挑战,机器人会不知道当前处在哪件事情里。

当出现这种情况时,在会话回复时指明所指对的对象可以让会话逻辑更清晰。知乎live的引用回复、微信、钉钉里的@功能都是在解决会话针对性的问题,可以借鉴。

在有了这个想法后,5号小蜜进行了1.0版本的研究和设计,在项目初期我们的承载硬件主要是以55寸,比例为16:9的液晶屏幕为主,用机器人的虚拟形象进行语音的互动,其中的场景设定也是在访客进入到5号行政楼进行互动的能力。

source:gartner. com

6.尽可能只给用户呈现她关心的最终结果

有段时间我一直用助理来也微信公众号打车,因为我只要说到哪,就等着来也回复我说几分钟谁来接我就好了,不用一直看着那几十秒的loading,也不用等着超过最长时间再次点击打车。

对话内容展示空间有限,相对于界面式浏览、筛选效率低,如果一直给用户中间结果,用户容易失去耐心,尽可能给用户呈现最终结果,才能提高用户效率。

www.4008.com 8

www.4008.com 9

7.关联场景串联让服务更完整

主动服务是服务咨询行业经常提到的词,无论是在线,还是电话,客服都会在一个问题结束时询问是否还有其他的问题,而场景串联即是主动服务的表现,关联场景串联能让用户在一次会话中解决一系列的问题,会让服务更完整。小蜜去年从到周末去哪、机票、充值等各种生活场景也一直在做各种尝试,让这样的场景更多的发生。

智能互动设备的框架拆解

source:Stephen Kenwright ’s blog

8.明确区分人和机器即可,不需要让用户混淆

在当前技术背景下,一般聊几句用户都会知道对方是人还是机器人,所以没必要去假装是人。之前在小蜜里看到的现象是因为人和人工的区分不是很明显,用户进入人工之后也在问:你是真人吗?说明用户被搞蒙了,反而降低了用户对产品的信赖。

在有了初步的进展之后,我们以设计师的视角总结了智能互动类设备的基础框架,为我们之后的升级和完善进行了整体的方向指导。

语音交互的主要特点在于www.4008.com,开放式聊天功能和任务导向型功能

三、结论

对话式交互在在线服务咨询中的应用,让服务更直接,更面向个人,更面向个性化的case,也让服务资源得到更合理的调配;随着智能技术的进一步发展,相信智能客服能为用户提供更快、更好的服务;但同时智能服务体验是重依赖智能技术的,在技术还不太成熟之前,设计在思考更完美的体验时,也需要更多的考虑各种方法来弥补智能不足对体验的影响。小蜜现在也有很多体验不太好的地方,还有很多可以尝试的空间,但相信只要在正确的方向上,就会越走越近。

www.4008.com 10

如果说快捷高效、轻松自然是语音交互的独特优势,那么任务导向型功能就是这些优势的完美落点。一个良好的语音交互产品,自然是技多不压身,能覆盖的范围越多越好,提供的功能越强大越好。

首先智能互动设备的核心支撑能力一定是算法的能力,而当前市面上的智能硬件大多数是以语音助理的形态出现的,因此对于设计师来说,VUI是重要的一环,5号小蜜不单单是语音的交互,也是视觉上的交互。因此在感知层面的设计上来说,是“VUI GUI”也就是听觉和视觉的互动(但在硬件多样发展的今天,触觉类也应该是要考虑到感知层面的一部分)。

下面小线菌将从语音交互中的VUI开始,为大家扒一扒语音交互那些事儿。

VUI GUI对比传统语音交互会有一些优势体现:在互动方面,语音可以理解为面,单一面传递信息是有限的,如果语音和界面结合起来,就是从两个单一面形成了空间,可以承载更多的信息。

VUI简史

举个例子:人与人在交流中不止是语言传递的互动,可以从面部表情、传递出喜怒哀乐;肢体语言传递出兴奋度和性格特质。综合起来,我们的交流才会更顺畅。

谈VUi前,我们得先说到GUI。图像用户界面GUI(Graphical User Interface)是60年代「人机交互」奇才道格·恩格尔巴特提出的概念,自从80年代苹果推出第一款应用GUI的电脑后,GUI一直是人机交互的典型代表。后来,随着越来越多的语音控制设备,如苹果HomePod和亚马逊Echo席卷市场,VUI正在帮助改进各种不同的用户体验。

在物理层面而言,是硬件设备的选择:液晶屏幕、玻璃屏幕(透明、非透明)、全息投影等。

VUI是用户通过语音与计算机进行人机交互来启动自动化服务或流程的工具,是直接面向用户的界面,所以是否能满足用户需求是判断其成功与否的决定性因素之一。VUI的发展过程主要可以分为以下两个时期:

在初期,我们的选择是液晶屏幕,这个是最基础的承载硬件,也是成本最低的硬件。而其它选择的硬件也有优劣之分,透明玻璃屏适合导购的场景,背后是否有商品的出现,是从传统的触觉互动进行了更多承载信息的进化。非透明玻璃屏适合更沉浸的助理场景,全息投影会更接近真人的感受,也是智能感受最强的一类,每一种硬件方式都有适合的场景,这个是我们需要去权衡的。

style="font-size: 16px;">诞生 style="font-size: 16px;">——纯语音交互

www.4008.com 11

语音交互界面VUI (Voice User Interface) 并不是全新的概念,它的前身是交互式语音应答IVR (Interractive Voice Response) 。二十世纪九十年代,交互模式的语音应答IVR正式诞生,代表了VUI发展的第一个重要时期。用户可直接通过电话进入服务中心,利用数字对内部系统进行命令操作。

在以设计师的身份参与过程中,我们更多的是以设计的视角和硬件、场景、技术等进行搭配合作,所以在过程中,会参考多方面的因素,影响最后落地的结果。

IVR存在的主要缺点有:

感知层面的设计策略:视觉层

  • 通常用于单轮任务
  • 交互方式较为单一
  • 不能进行中途打断

www.4008.com 12

在与系统的交互过程中,如果出现了失误,用户只能挂断重来,这使得整个交互过程极不流畅,而用户也一直处于相当拘谨的状态下,与如今语音交互轻松自然的氛围相去甚远。

在2.0初期,我们先整理了最直接的感官层的一部分——视觉感受,以此为基础为产品定调,以最直接的表现层为手段帮助产品建立视觉体系。

style="font-size: 16px;">普及 style="font-size: 16px;">——语音和屏幕结合交互

首先我们内部脑暴统一同步了本次升级的目标:让小蜜更智能,更有服务感。一个是本身我们在做的事情就是智能相关的研究,另外在落地的场景访客中心承载的也是服务的属性,所以在设计方面就抓取了两个心智方向的关键词:智能、服务。

新一代的VUI更多指的是人通过自然语言与计算机进行交互,所以可认为VUI是人工智能时代下的人机交互代表

www.4008.com 13

各大公司都推出了自己的语音助手,例如微软的cortana,谷歌的Google OK和苹果的Siri。这些语音助手结合视觉和听觉,同时使用语音和屏幕进行人机交互。发展到这个阶段,就打破了原先IVR仅能用于单轮任务的局限性,使得语音交互有了多轮对话的可能性。

在关键词的引导下,先建立情绪版,整合出表现层的特性。

www.4008.com 14

www.4008.com 15

近两年,各大公司都推出了自己的智能家居音箱,例如Amazon echo和Google home这类的纯语音设备。在未来的生活和工作场景中,此种语音交互是一个新的入口,提供了更灵活的交互方式。在未来的某一天,人们必然会放弃屏幕和手势的操作,直接通过语音进行远距离的设备控制,而这正是各大公司抢占语音市场的原因。

抽出智能感受类的关键词,可以是抽象或者具象的描述。

VUi设计原则

www.4008.com 16

VUI设计是一个以用户心理模型为中心的设计过程,目的是满足用户喜欢快餐的心理,只有创建出用户习惯的,适应的并且便捷的方式,这种设计才有可能被大众接受,赢得消费者的信赖。

接着整理出服务相关的视觉属性。

下面,小线菌结合各路资料总结了语音交互设计的三条基本原则:

www.4008.com 17

前提:能用 style="font-size: 16px;">——切勿让用户有认知负荷

www.4008.com 18

语音交互呈现给用户的主要是听和说,提供给用户的大多为瞬时不长久存在云顶娱乐,的信息,这导致用户没有可能去回顾设备的输出。声音对于人类来说更多是短暂的记忆,人们不可能一下子记住很多新信息,所以VUI的设计原则之一便是不能让用户有认知负荷云顶集团官网,,配合人类的短时记忆功能

根据关键词的延展,得到了视觉语言的方向,但是在推导中我们发现智能和服务有些画面更像是互补色之间的关系,有一定的对立面,所以要从中调和每个关键词在界面中的占比。同时要考虑是不是有减少两者冲突的办法,所以在多次尝试后决定将1.0版本中的机器形象换成真人。

要求:可用——赋予人格化,切勿好为人师

首先在行政楼场景中,真人会带来更多的亲切感,与服务场景更契合;

语音交互中建立人机之间的亲密关系才是抓住用户的关键,语音中包含了音量以及语调、语速、语气,这些因素可以更好地传达人的情绪,使得情感的传递更为直接。同时,如果智能设备有着一个令人着迷的个性,相信人们会更愿意与它进行互动并建立关系。

其次界面关键词的分配方面也会有考量,在氛围中我们更希望带来智能感受、在对话中我们更希望是亲切的服务感,因此真人的形象出现是一个比较合适的策略。

同时,VUI无需暗指用户需要学习如何发出命令,诸如“如果需要XXX,请说/做XXX”此类提示。这种提示带有一些按键语音客服的痕迹,类似10086的“业务查询请按1;手机充值请按2;业务办理请按3;人工服务请按4”。这些提示模拟了典型的按键界面(按键语音客服),以一种老师的姿态教育用户应该如何交流。

而且服务的视觉概念也从我们常常感知到的二维变成了多维的角度,从单一的界面变成了人设、服装、肢体语言、面部表情等多方结合的综合体。因此这两个关键词延展出来的部分就有了各自的分工:智能感更多的体现在界面氛围上;服务感更多体现在人物上,两者结合的会更加润滑。

style="font-size: 16px;">目标:易用——对话准确高效且相关

下图是关键词占比的界面尝试过程灰机稿。

比如,当系统问用户,你的主要症状是什么?若用户说的是发烧和感冒,系统就要理解用户说的是两个症状,针对这个事情,系统需要进行回复两种不同的症状解决方式。

www.4008.com 19

但在目前的语音交互中,却多数会出现这样的情况:

在尝试过程中,画面一步步清晰了起来,智能 服务也能更多体现出来,最终通过提炼过程中的视觉语言,形成了最终的画面。

“我想吃麻辣烫”

style="font-size: 16px;">“为您推荐XXX,销量XXX,价格XXX,是否购买”

“有没有更便宜的”

不识别

www.4008.com 20

或是...这样的:

在整体视觉感受设计的同时,人物的视觉点也在同步进行,我们对人物进行了性别、着装、动作、面部表情的设定,整体目标以之前服务感中总结出的友善、轻松为关键词。

“这一周哪天是晴天”

不识别

“今天适合穿什么衣服”

答不对题

www.4008.com 21

要解决上述交互层面的认知问题,关键在于两点,一是语音识别准确率,另一个则是自然语言处理水平。

最终画面(其中一款服装是考虑之后场景的拓展性,整个以智能感受为主)。

我思故我在

www.4008.com 22

无论是何种设计原则,都需要建立在语音交互的意义之上,而语音交互的意义,便在于距离感

感知层面的设计策略:听觉层

在日常生活的大多数情况中,我们其实并没有必要使用语音交互,比如进入一家餐厅我们可以直接使用门口的点餐机下单,执行语音下单操作并没有多大意义;再比如如果我们一回到家灯的开关就在右手边,那么语音开灯就显得多此一举。

在描述完视觉设定后,来看一下听觉的方面,也就是语音的互动。

相反,只有我们有了距离感,才能真正发掘出语音交互给我们带来的便利。所以如果想让人们恰如其分地使用这些智能硬件,一定要在他们有这种距离感的前提下,比如一键唤醒,“我要打车”,“订一份凉拌面”,“看一下我快递在哪”,这样既利用了手机随身携带的优势,又发挥了语音的价值。

www.4008.com 23

我思故我在,一件事物只有当拥有本身的意义之后,才能被人发掘出后续存在的价值,而对于语音交互来说,而要找到这种距离感,需要对人们的每一个生活场景和日常行为进行细致的观察和深入的思考。

首先,语音互动的核心能力还是在算法上面,因此语音交互也是和技术能力相辅相成,5号小蜜的技术手段也比较丰富,主要是以下几种:ASR、TTS、QA、面部跟踪、面部重塑面部跟踪渲染等AI技术模块。理论上只要获得充足的人物视频 语音数据,技术可模拟任意指定人物。数据越多,面部和语音的还原度越逼真。

参考资料:

www.4008.com 24

智能音响初体验和语音交互深思考 -李洺宇

其中,为获取原始数据,需要进行数据的采集,主要是在采集室里对语音、图像进行收录,大致技术的流程如下所示:

语音交互设计的流程及方法 -阿里TXD

www.4008.com 25

Voice User Interface Insights -Prototypr返回搜狐,查看更多

在这些技术背景下,语音的互动更多的是考虑如何在与真人的对话中,体验更加顺畅。

责任编辑:

下图为核心的Flow:

www.4008.com 26

在小蜜与用户交流的部分做了标记,也是语音交互的核心内容区。为了方便整个流程连贯起来,还是从最初的部分开始,讲述一个完整的剧本。

用户从行政楼走进,一般会有几种意图:开会(查找会议室)、来访(了解阿里文化等)、参观(闲聊)根据这些场景我们进行了两个关键节点的设定:吸引、交流。由于结束对话属于弱互动,所以暂不列入重点。

www.4008.com 27

www.4008.com 28

www.4008.com 29

以上为语音互动的核心部分,其余还有用户结束对话的声音动作反馈——“再见” 挥手等;未知问题的回复处理——进行多种兜底话术的配置;中途离场的用户——小蜜15S内回复初始状态等。

物理层面策略:硬件、场景

www.4008.com 30

在考虑界面语音互动的同时,也要考虑硬件方面待给体验的影响,比如设备的主要构成,MIC、音响、支架、外观显示器等主要硬件。

www.4008.com 31

MIC的技术手段是单轨拾音,因此需要保证在有效距离内收音(机器前会张贴最佳距离的脚印贴纸,以保证对话收音)。显示器会制作可调整的15°角倾斜,考虑反光、身高视角等情况。机器总高度控制在1.8M,用户眼睛与小蜜眼睛保持平视,最佳观看高度在1.7M左右的平均值,以覆盖大部分用户的使用感受。

(年会亮相图)

www.4008.com 32

下图为整个硬件的构成部分以及运作传输图。

www.4008.com 33

在硬件组装完毕后,会进行收音的测试,在实际使用场景 – 公共环境(嘈杂环境)下用录音(ASR识别)的方式来收集不同位置的收音状况(保证同等条件下,比如分贝相同)来收集数据,最后判定这个MIC的硬件是不是最合适的。

www.4008.com 34

经过综合多方位设计后,设备才能见到雏形,本身智能互动领域就是多维度的综合体,设计师参与在其中也会从单一的视觉、交互维度去向更全面的维度思考,使每一个环节串联起来,打造更好的UX体验。

最后的思考

从这次的项目来看,我们在做事情的初期就需要有一个完整的目标定义,Lot设备的应用场景考量等等,这次综合升级只是考虑了单一的行政场景,解决的是咨询类的问题,因此设计的链路也是单一且浅薄的。但是产品的发展一定是要向商业化迈步的,比如:热门的导购场景,与淘系新零售的战役契合,结合淘宝生态配合多种垂直行业,机器人作为智能客服出现在售前、售中、售后的服务等等。

设计也需要在每个场景中分别做出判断,行业通用的部分沉淀,以及行业特性的个性化设计思考,都是需要不断的去尝试和打磨的。而智能互动设备作为一种趋势,也是设计师去发挥所长的沃土。

本文由 @喵了个汪 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自 Pixabay,基于 CC0 协议返回搜狐,查看更多

责任编辑:

本文由云顶娱乐发布于科技技术,转载请注明出处:「语音交互设计」之 VUI简析| L-insights

关键词: 云顶娱乐

上一篇:新款iPhone模型对比视频曝光:三款真机尺寸齐亮

下一篇:没有了