亚马逊的Alexa在一次性理解多步骤请求方面变得越来越精通。在一篇论文(“口语协调的解析协调”)和今天早上发表的随附博客文章中,Alexa AI组织的应用科学家Sanchit Agarwal详细介绍了一种将语音命令映射到行为的口语理解(SLU)系统(意图)和实体(插槽)比现成的替代品准确度高26%%。
Agarwal及其同事的工作将在本月晚些时候在希腊雅典举行的IEEE口语技术会议上展出。亚马逊科学家描述了一种可以将Alexa的技能选择错误率降低40%%的AI驱动方法,这一天他们的研究消息传来。
“狭义[SLU系统]通常有严格的约束,例如只允许一个意图与话语相关联,只有一个值与一个插槽类型相关联,”他写道。“我们[建议]一种方法,使SLU系统能够理解复合实体和意图。”
正如Agarwal解释的那样,他和同事们使用了一个深层神经网络 - 称为神经元的数学函数层,它们的生物学等价物是松散的模型 - 从口语数据的结构中“教导”。首先,根据指示应被视为集合的词组或“块”的方案来标记语料库:“B”表示块的开头,“I”表示块的内部,或者“O”表示位于大块之外的单词。然后,在训练之前,单词进行嵌入,这个过程涉及用向量代替它们来代表它们。
接下来将嵌入传递给双向长短期记忆(bi-LSTM)网络,这是一种能够学习长期依赖性的递归神经网络,其输出输入句子中每个单词的上下文嵌入。这些输出与神经网络层相结合,神经网络层将每个嵌入映射到输出“B”,“I”和“O”标签上的分布,根据其最可能的输出标签对输入的每个字进行分类。
另一个层(称为条件随机字段或CRF)学会了在输出标签之间进行关联,并从所有可能的序列中选择最可能的标签。感谢一种称为对抗性训练的技术 - 在此期间,网络被评估其预测标签的好坏程度 - 该模型学会了概括。
“我们不是为不同的插槽类型(例如ListItem,FoodItem,Appliance等)构建单独的解析器,而是构建了一个可以处理多种插槽类型的解析器,”Agarwal说。“例如,我们的解析器可以成功识别话语中的[列表项目]'将苹果花生酱和果冻添加到我的列表中'和[电器]在话语'打开客厅灯和厨房灯'。
科技在提高人们社会活动质量的同时可能对部分科技使用者造成伤害。我们要正确认识网络的两面性,用其所长、避其所短,发挥网络对生活的积极促进作用。把科技作为生活的补充就可以享受科技的诸多益处,以上这篇文章希望可以给大家带来有用的信息。