Diarization - 将语音样本划分为独特的同类片段的过程,根据谁说什么,何时 - 对机器来说不像人类那样容易,并且训练机器学习算法来执行它比使用它更难声音。强大的二值化系统必须能够将新个体与之前未遇到的语音段相关联。
但谷歌的人工智能研究部门已经朝着高性能模式取得了令人鼓舞的进展。在一篇新论文(“ 全监督演讲者Diarization ”)和随附的博客文章中,研究人员描述了一种新的人工智能(AI)系统,该系统“以更有效的方式利用受监督的扬声器标签”。
该论文的作者声称核心算法实现了对于实时应用程序而言足够低的在线分类错误率(DER) - 在NIST SRE 2000 CALLHOME基准测试中为7.6%%,而谷歌之前的方法为8.8%%DER - 可在开放时使用Github上的源代码。
谷歌研究人员的新方法通过递归神经网络(RNN)模拟说话者的嵌入(即,单词和短语的数学表示),RNN是一种机器学习模型,可以使用其内部状态来处理输入序列。每个发言者都以自己的RNN实例开始,该实例在给定新嵌入的情况下不断更新RNN状态,使系统能够学习在发言者和话语之间共享的高级知识。
“由于该系统的所有组件都可以以监督的方式学习,因此在可以获得带有高质量时间标记的扬声器标签的训练数据的情况下,它优于无监督系统,”研究人员在论文中写道。“我们的系统受到全面监督,并且能够从带有时间标记的扬声器标签的示例中学习。”
在未来的工作中,团队计划优化模型,以便它可以集成上下文信息以执行离线解码,他们期望这将进一步减少DER。他们还希望直接对声学特征进行建模,以便整个扬声器系统可以进行端到端的训练。
科技在提高人们社会活动质量的同时可能对部分科技使用者造成伤害。我们要正确认识网络的两面性,用其所长、避其所短,发挥网络对生活的积极促进作用。把科技作为生活的补充就可以享受科技的诸多益处,以上这篇文章希望可以给大家带来有用的信息。