频段带宽-preferencefragment
2023年4月4日发(作者:sens dll)
语⾳交互规范(第⼀讲)
编辑导语:随着互联⽹的发展,语⾔交互融⼊了我们的⽇常⽣活中。那么,关于语⾳交互规范,你⼜了解多少呢?本
⽂从AI语⾳交互发展谈起,总结了⼀些语⾳交互规范内容,供⼤家参考,希望对你有所帮助。
⼀、AI语⾳交互发展
语⾳交互的发展经历了三个阶段:
第⼀阶段是上世纪80年代,语⾳交互能够实现⼀问⼀答,前后回答并不具有内容的相关性。随着⼈⼯智能和深度学习的
发展,机器的理解能⼒越来越强。
⾃从2009年开始,随着iPhone⼿机siri的出现,进⼊第⼆阶段,语⾳的对话能做到有问有答,能够理解上下⽂,但是这
种应⽤场景还⽐较局限。
第三阶段,2014年AmazonEcho的出现,实现了应⽤领域的⾰新,拓展了语⾳交互的场景,智能语⾳交互的爆发则在
2017年智能⾳响的发展,语⾳交互得到巨⼤的突破,语⾳和语意的理解更加准确,具有代表性的产品有⼩爱⾳响、天猫
精灵和⼩度⾳响等。
⼆、什么是AI语⾳交互?
AI语⾳交互通俗的理解就是:⼈与机器的对话。语⾳交互在技术⽅⾯讲主要包括:听(ASR)、语义理解(NLP)、说
(TTS)。
听(ASR):⽤ASR技术把语⾳识别成⽂字。
语义理解(NLP):使⽤NLP技术,把⽂字输⼊转化为⽂字输出。通过语法判断、上下⽂理解、关系理解、知识图谱等
技术。就是理解⽂字的含义后,把想反馈的回答以⽂字表达出来。
说(TTS):使⽤TTS技术把⽂字合成为语⾳。
三、为什么要建⽴AI语⾳交互规范?
在公司⾓度:有统⼀的交互规范便于公司内部产品形成统⼀的共识,减少沟通的成本,提升⼯作的效率。
在设计师⾓度:对外有了统⼀的交互规范便于与产品、开发等⼈员的沟通,对内便于组织内的成员学习与提⾼。
在设计管理者的⾓度:对内能达成设计共识,对外提升设计组织的影响⼒。
在我看来交互规范是⼀个内部产品,它随着产品的⽣命周期迭代演进;交互规范是⼀套内部共识,它不仅仅解决了设计
在我看来交互规范是⼀个内部产品,它随着产品的⽣命周期迭代演进;交互规范是⼀套内部共识,它不仅仅解决了设计
问题,更是组织协同的解药;交互规范是⼀种思维⽅式,不仅产品设计,甚⾄⾃⼰的⽣活都可以借鉴设计系统来提升效
率。
四、AI语⾳交互规范主要内容是什么?
1.语⾳交互原则
2.语⾳交互框架
3.语⾳逻辑规范
4.语⾳控制原则
5.多模态交互
6.弹框机制
7.操作反馈
8.界⾯架构
9.情感化设计
五、语⾳交互的原则1.通⽤原则
及时反馈原则。⽤户在与系统进⾏语⾳交互的过程中,系统要给予及时的反馈。
合适的速度。语⾳的播报速度、结果呈现速度、IP形象展⽰的速度、⽂字展⽰及纠错的速度都在⼀个合适的范围内。
易取原则。尽量减少⽤户对操作⽬标的记忆负荷,交互动作和结果都是可见、可听的。
⼈性化帮助原则。在⽤户需要帮助的时候提供必要的帮助说明和引导。
灵活⾼效原则。语⾳交互可以跨越层级,直接⾼效的触达⽬标。
防错原则。在⽤户意图不明确的时候,可以向⽤户询问,还可以预测⽤户的可能的意图提⽰⽤户。
消除歧义。交互的形式和内容不会让⽤户感到困惑,当⽤户的命令存在歧义时,通过交互的形式消除歧义,帮助⽤户达
成⽬标。
适应当地⽂化。语⾳的形象IP和话术的提问及回答都要符合⽤户所处的⽂化背景和地域⽂化。
2.交互的可⽤性要素
轮流对话。在对话中基于信号的传递,进⾏轮流的表达。回答的机制是⼀问⼀答。
上下⽂串联。在对话的语⾔中需要结合上下⽂的语意串联起来进⾏回答,这样有助于提升对话的准确性。
多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。
理解⾏为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。
反馈。对于⽤户的请求应给予反馈,⽆论是声⾳、⽂字还是图像。
语⾳的效率。在对话的过程中往往有⼀些隐晦的潜台词,在对话的过程中要理解⼝语之下的更深层次的意图,并给予准
确的回答。
3.⼈性化的表达
语⾔是⼈类表达情感的重要⽅式,在语⾳交互的过程中,⼈性化的设计必不可少的。状态可见原则。在整个语⾳交互的
对话过程中,对于场景、⾓⾊都需要从⼈与⼈对话的⾓度出发。
对话的逻辑。语⾔对话逻辑应该遵循⼈类语⾔的本能,不应该强迫⽤户为了适应机器对话⽽采⽤层级递进的逻辑思维,
⽤户只需要正常的表达就可以。
⽤户只需要正常的表达就可以。
情感化。语⾳交互需要⼈格化、情感化。需要与产品的品牌调性相契合。语⾳⼈格⽅向特征具有:有趣、正能量、机智
和温暖等特点。
⼝语。⼝语化的交流,同时也需要避免说显⽽易见的内容,对话需要多样性,使体验更加⾃然。
环境贴切。使⽤简单易懂和约定俗成的表达,尽可能的贴近⽤户所在的环境。
地⽅语⾔。语⾔的本⾝要有地域的特⾊,语⾳的表达要有⼴泛的群众基础,其中⽅⾔识别也是语⾳交互中重要的技能。
六、语⾳交互框架1.语⾳交互流程
⼀次完整的语⾳交互流程,包括:唤醒—ASR—NLP—Skill—TTS语⾳应答/界⾯结果展⽰(如下图所⽰)。
2.语⾳交互框架
1)根据苹果公司的全品类设备的特点,在语⾳框架需保持⼀致,兼顾mac、paid、⼿机⼤⼩屏和横竖屏。Siri交互包
括:Siri的状态、ASR内容/话术、语⾔TTS反馈。
3.远场与近场
远场应⽤⽐如Siri。直接说:“Siri”唤醒语⾳助⼿,唤醒后可以远程进⾏语⾳交互。
近场应⽤⽐如智能电视。使⽤遥控器,按住语⾳键,对着遥控器进⾏语⾳近距离语⾳交互。
近场应⽤⽐如智能电视。使⽤遥控器,按住语⾳键,对着遥控器进⾏语⾳近距离语⾳交互。
设计⽤例:
User:“Siri,定个闹钟”。
语⾳助⼿:“你要定什么时候呢?”
User:“明天早上8点”。
4.正常/异常状态
正常状态:
语⾳交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满⾜及时反馈。
异常状态:
语⾳交互过程中,判断外⽹终端->提⽰:待命+⽹络异常,请检查⽹络。
注:⽆界⾯时,直接TTS反馈:【⽹络异常,请检查⽹络】(要求TTS写在本地)。
5.对话澄清
指语⾳主动与⽤户的对话,达到意图的确认。
说明
更多推荐
oppo语音助手怎么唤醒
- 上一篇: 多多钱包的钱怎样提到微信
- 下一篇: 返回列表
发布评论