频段带宽-preferencefragment

oppo语音助手怎么唤醒
2023年4月4日发(作者:sens dll)

语⾳交互规范(第⼀讲)

编辑导语:随着互联⽹的发展,语⾔交互融⼊了我们的⽇常⽣活中。那么,关于语⾳交互规范,你⼜了解多少呢?本

⽂从AI语⾳交互发展谈起,总结了⼀些语⾳交互规范内容,供⼤家参考,希望对你有所帮助。

⼀、AI语⾳交互发展

语⾳交互的发展经历了三个阶段:

第⼀阶段是上世纪80年代,语⾳交互能够实现⼀问⼀答,前后回答并不具有内容的相关性。随着⼈⼯智能和深度学习的

发展,机器的理解能⼒越来越强。

⾃从2009年开始,随着iPhone⼿机siri的出现,进⼊第⼆阶段,语⾳的对话能做到有问有答,能够理解上下⽂,但是这

种应⽤场景还⽐较局限。

第三阶段,2014年AmazonEcho的出现,实现了应⽤领域的⾰新,拓展了语⾳交互的场景,智能语⾳交互的爆发则在

2017年智能⾳响的发展,语⾳交互得到巨⼤的突破,语⾳和语意的理解更加准确,具有代表性的产品有⼩爱⾳响、天猫

精灵和⼩度⾳响等。

⼆、什么是AI语⾳交互?

AI语⾳交互通俗的理解就是:⼈与机器的对话。语⾳交互在技术⽅⾯讲主要包括:听(ASR)、语义理解(NLP)、说

(TTS)。

听(ASR):⽤ASR技术把语⾳识别成⽂字。

语义理解(NLP):使⽤NLP技术,把⽂字输⼊转化为⽂字输出。通过语法判断、上下⽂理解、关系理解、知识图谱等

技术。就是理解⽂字的含义后,把想反馈的回答以⽂字表达出来。

说(TTS):使⽤TTS技术把⽂字合成为语⾳。

三、为什么要建⽴AI语⾳交互规范?

在公司⾓度:有统⼀的交互规范便于公司内部产品形成统⼀的共识,减少沟通的成本,提升⼯作的效率。

在设计师⾓度:对外有了统⼀的交互规范便于与产品、开发等⼈员的沟通,对内便于组织内的成员学习与提⾼。

在设计管理者的⾓度:对内能达成设计共识,对外提升设计组织的影响⼒。

在我看来交互规范是⼀个内部产品,它随着产品的⽣命周期迭代演进;交互规范是⼀套内部共识,它不仅仅解决了设计

在我看来交互规范是⼀个内部产品,它随着产品的⽣命周期迭代演进;交互规范是⼀套内部共识,它不仅仅解决了设计

问题,更是组织协同的解药;交互规范是⼀种思维⽅式,不仅产品设计,甚⾄⾃⼰的⽣活都可以借鉴设计系统来提升效

率。

四、AI语⾳交互规范主要内容是什么?

1.语⾳交互原则

2.语⾳交互框架

3.语⾳逻辑规范

4.语⾳控制原则

5.多模态交互

6.弹框机制

7.操作反馈

8.界⾯架构

9.情感化设计

五、语⾳交互的原则1.通⽤原则

及时反馈原则。⽤户在与系统进⾏语⾳交互的过程中,系统要给予及时的反馈。

合适的速度。语⾳的播报速度、结果呈现速度、IP形象展⽰的速度、⽂字展⽰及纠错的速度都在⼀个合适的范围内。

易取原则。尽量减少⽤户对操作⽬标的记忆负荷,交互动作和结果都是可见、可听的。

⼈性化帮助原则。在⽤户需要帮助的时候提供必要的帮助说明和引导。

灵活⾼效原则。语⾳交互可以跨越层级,直接⾼效的触达⽬标。

防错原则。在⽤户意图不明确的时候,可以向⽤户询问,还可以预测⽤户的可能的意图提⽰⽤户。

消除歧义。交互的形式和内容不会让⽤户感到困惑,当⽤户的命令存在歧义时,通过交互的形式消除歧义,帮助⽤户达

成⽬标。

适应当地⽂化。语⾳的形象IP和话术的提问及回答都要符合⽤户所处的⽂化背景和地域⽂化。

2.交互的可⽤性要素

轮流对话。在对话中基于信号的传递,进⾏轮流的表达。回答的机制是⼀问⼀答。

上下⽂串联。在对话的语⾔中需要结合上下⽂的语意串联起来进⾏回答,这样有助于提升对话的准确性。

多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。

理解⾏为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于⽤户的请求应给予反馈,⽆论是声⾳、⽂字还是图像。

语⾳的效率。在对话的过程中往往有⼀些隐晦的潜台词,在对话的过程中要理解⼝语之下的更深层次的意图,并给予准

确的回答。

3.⼈性化的表达

语⾔是⼈类表达情感的重要⽅式,在语⾳交互的过程中,⼈性化的设计必不可少的。状态可见原则。在整个语⾳交互的

对话过程中,对于场景、⾓⾊都需要从⼈与⼈对话的⾓度出发。

对话的逻辑。语⾔对话逻辑应该遵循⼈类语⾔的本能,不应该强迫⽤户为了适应机器对话⽽采⽤层级递进的逻辑思维,

⽤户只需要正常的表达就可以。

⽤户只需要正常的表达就可以。

情感化。语⾳交互需要⼈格化、情感化。需要与产品的品牌调性相契合。语⾳⼈格⽅向特征具有:有趣、正能量、机智

和温暖等特点。

⼝语。⼝语化的交流,同时也需要避免说显⽽易见的内容,对话需要多样性,使体验更加⾃然。

环境贴切。使⽤简单易懂和约定俗成的表达,尽可能的贴近⽤户所在的环境。

地⽅语⾔。语⾔的本⾝要有地域的特⾊,语⾳的表达要有⼴泛的群众基础,其中⽅⾔识别也是语⾳交互中重要的技能。

六、语⾳交互框架1.语⾳交互流程

⼀次完整的语⾳交互流程,包括:唤醒—ASR—NLP—Skill—TTS语⾳应答/界⾯结果展⽰(如下图所⽰)。

2.语⾳交互框架

1)根据苹果公司的全品类设备的特点,在语⾳框架需保持⼀致,兼顾mac、paid、⼿机⼤⼩屏和横竖屏。Siri交互包

括:Siri的状态、ASR内容/话术、语⾔TTS反馈。

3.远场与近场

远场应⽤⽐如Siri。直接说:“Siri”唤醒语⾳助⼿,唤醒后可以远程进⾏语⾳交互。

近场应⽤⽐如智能电视。使⽤遥控器,按住语⾳键,对着遥控器进⾏语⾳近距离语⾳交互。

近场应⽤⽐如智能电视。使⽤遥控器,按住语⾳键,对着遥控器进⾏语⾳近距离语⾳交互。

设计⽤例:

User:“Siri,定个闹钟”。

语⾳助⼿:“你要定什么时候呢?”

User:“明天早上8点”。

4.正常/异常状态

正常状态:

语⾳交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满⾜及时反馈。

异常状态:

语⾳交互过程中,判断外⽹终端->提⽰:待命+⽹络异常,请检查⽹络。

注:⽆界⾯时,直接TTS反馈:【⽹络异常,请检查⽹络】(要求TTS写在本地)。

5.对话澄清

指语⾳主动与⽤户的对话,达到意图的确认。

说明

更多推荐

oppo语音助手怎么唤醒