< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

神“脑补”！只要一段话，就知道你的说话手势 | UC伯克利

乾明 2019-06-25 08:43:26 来源：量子位

以后打电话，一边在电话里说着爱对方，一边却搞着小动作，会暴露的。

乾明发自凹非寺

量子位报道 | 公众号 QbitAI

防不胜防！现在， AI只需要听你的声音，就能知道你说话手势了。

这项“脑补力”Max的新研究，来自UC伯克利大学等机构，被今年的学术顶级会议CVPR 2019收录。

在他们的研究中，只需要输入一段语音，就预测出了说话人的手势，基本没有什么违和感。

不信？看看美国知名脱口秀Last Week Night主持人Oliver就知道了，他的手势已经被AI研究透了。说话的时候，肩膀什么角度，手指如何挥动，预测得一清二楚。

而且，不仅仅是坐着的脱口秀主持人，他们的研究也覆盖了其他各种场景：

站着的脱口秀主持人，说话的手势比较豪放：

比如老师上课时，使用这样的手势：

看到这项研究之后，就有网友评论称，不知道它能不能预测川普的魔性手势？

也有人表示，还好这只是项研究，如果能够应用到现实中，那还了得？

以后打电话，一边在电话里说着爱对方，一边却搞着小动作，会暴露的。

怎么实现的？

手势，是人们在说话过程中自发发出的行为，用于补充语音信息，来帮助更好地传递说话人的想法。

通常情况下，说话的时候，手势与话语都是有关联的。但想要从话语中获取手势信息，还需要学习音频和手势之间的映射关系。在实践中，还有不少麻烦：

首先，手势和话语是异步的，手势可以出现在相应话语前、后或者期间。
其次，这是一项多模态的任务，说话人在不同的场合，说同样的话，手势可能不一致。
而且，每个人说话时的手势也是非常特别的，不同的说话者倾向于采用不同的说话手势。

为了解决这些问题，研究人员提出了一种时间跨模态翻译的方法，采用端到端的方式将语音转换成手势，并使用了范围非常大的时间背景来进行预测，以此克服异步性问题。

他们建立了一个由10名说话人组成的144个小时的大型个人视频数据集。为了体现出模型的适用范围，说话人的背景不尽相同：有电视节目主持人、大学教师和电视上的福音传道者。

他们讨论的话题也跨越了很多话题，从死亡哲学、化学到摇滚音乐历史、时事评论以及阅读圣经、古兰经等等。

现在，这一数据集已经对外开放。

具体是如何从话语中预测出手势的呢？请看下图：

给定一段语音，通过翻译模型（G）预测说话人与话语匹配的手势动作（手和胳膊的运动）。

然后采用回归函数（L1）从数据中提出训练信号，并通过度抗性鉴别器来确保预测的只是在时间上与话语是一致的，并符合说话人的风格。

然后用一种现有的视频合成方法来生成说话人说出这些话时的样子。

整个卷积网络，由一个音频编码器和一个1D UNet翻译架构组成。音频编码器采用2D对数-梅尔频谱图作为输入，并通过一系列卷积对其进行下采样，从而产生与视频采样率相同的1D信号(15 Hz)。

UNet翻译架构随后通过L1回归损失学会将该信号映射到手势向量的时间堆栈。

之所以使用UNet架构进行翻译，是因为它的瓶颈为网络提供了过去和未来的时间上下文，允许高频时间信息流过，从而能够预测快速的手势运动。

虽然L1回归是从数据中提取训练信号的唯一方法，但它存在回归均值的已知问题，这种回归均值会产生过度平滑的运动。为了解决这个问题，添加了一个以预测的姿态序列的差异为条件对抗性鉴别器。

研究团队

这一研究的作者，大部分来自UC伯克利。

一作为Shiry Ginosar，UC伯克利计算机系的博士生。之前是人机交互领域的研究员，曾经在CMU计算机系做访问学者。

共同一作为Amir Bar，是一名生活在伯克利的机器学习工程师。目前，在Zebra Medical Vision工作，致力于提高医疗保健领域的效率。

他们在论文中说，这一研究是朝着对话手势的计算分析迈出的一步，之后也可以用于驱动虚拟任务的行为。

最后，送上传送门：

论文地址：

http://people.eecs.berkeley.edu/~shiry/speech2gesture/

源代码即将公开：

https://github.com/amirbar/speech2gesture

机器学习计算机视觉

乾明

神“脑补”！只要一段话，就知道你的说话手势 | UC伯克利

相关阅读

疫情加速百度人脸识别变革：戴口罩也能准确识别，迅速上线，iPhone可以抄作业了

81页计算机视觉学习指南，事无巨细，助你从萌新长成老司机

不敲代码就能搞机器学习？亚马逊云科技这回放了个大招

联想？自动驾驶技术冠军？

谷歌提出新型自动语音识别数据增强大法，直接对频谱图“动刀”，提升模型表现

又是加拿大！连年拒签NeurIPS参会者被指太荒唐，Hinton亲自过问也没辙

热门文章

合肥又押中AI独角兽：多模态赛道，3个月融了21亿

智能体政策新闻相关背景和简要解读

国产世界模型登顶李飞飞团队榜单！适配国产昇腾算力、代码权重全开源

世界模型“六小龙”在WAIC吵起来了！行业红利就在非共识里

长内容创作者苦AI失忆久矣，这个新Agent漂亮填坑！门槛低到只需要会用键盘打字