预测3D人体姿势可能不属于大多数人的范围,但机器人技术,计算机图形学和其他主要关注运动学的领域 - 与物体运动有关的力学分支 - 可以从能够做到这一点的系统中受益。姿势预测是之前应用人工智能(AI)的一项任务,最近由谷歌推出,但一些先前的工作遇到了障碍:它在不自然的方向拉伸数字关节和骨骼,特别是当关节旋转时。
Facebook的人工智能研究部门,谷歌大脑和苏黎世联邦理工学院的新研究有望解决这个问题,幸运的是。在本周发布在预印本服务器Arxiv.org上的一篇论文(“ 基于四元数的人体运动神经网络 ”)中,研究人员描述了一个人工智能系统--QuaterNet--通过将联合旋转表示为称为四元数的复数系统来改善姿势生成,并通过惩罚联合位置错误。
正如本文的共同作者所解释的那样,循环神经网络 - 一种能够学习长期依赖性的AI算法 - 历来用于执行短期和长期姿态预测,而卷积神经网络 - 算法非常擅长于分析视觉图像 - 已成功应用于长期生成运动(从一个地方移动到另一个地方)。但由于人体姿势的固有随机性,一个完美的模型仍然是难以捉摸的。
“人体运动是一个具有高度不确定性的随机过程,”研究人员写道。“对于给定的过去,将来会有多个可能的未来帧序列,并且不确定性会随着持续时间而增加。”
大多数模型使用转换运算符来预测先前姿势的下一个姿势。它们从它们摄取的记录帧中输出记录的目标帧,这在大多数情况下都很有效。但它不会将它们暴露给自己的错误,因此会阻止它们从这些错误中恢复。
相比之下,研究人员提出的系统采用卷积神经网络,该网络查看过去的帧,随着时间的推移学习进行长期预测,因为它逐渐暴露于自己的预测中。同时,损失函数 - 将一个或多个变量的值映射到实数上的函数 - 作为输入关节旋转并计算每个关节的位置。共同作者说,这既改善了模型的稳定性,又减少了误差。
为了验证该模型的短期姿势预测能力,研究人员采购了Human3.6M,这是一个开源3D人体姿势数据集,包含来自7名演员执行15次动作的360万人类姿势以及相应的图像。在包含运动样本的不同数据集上评估长期生成测试。
在短期预测任务中,共同作者报告了人类3.6M基线的改进。并且在长期姿势生成的情况下,其目标是在给定平均速度和地面轨迹的情况下生成姿势序列,它们将模型表征为“定性地”与最近的工作相比较,同时允许更好地控制时间和空间约束。
他们留待未来的工作将QuaterNet扩展到其他与运动相关的任务,例如动作识别或视频的姿势估计,以及使用“直接在四元数域中执行计算”的神经网络。
科技在提高人们社会活动质量的同时可能对部分科技使用者造成伤害。我们要正确认识网络的两面性,用其所长、避其所短,发挥网络对生活的积极促进作用。把科技作为生活的补充就可以享受科技的诸多益处,以上这篇文章希望可以给大家带来有用的信息。