一群工程师,让听障群体“看见”了声音

现在,AI实时字幕进入了聋协的手语课堂

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

看到这样一张图,你是否会露出“暴露年龄”的会心一笑?

一群工程师,让听障群体“看见”了声音

电脑还只有dos系统的年代仿佛还没过去多久,智能手机却已俨然成为在现代社会中生活的标配。

科技的进步,无疑给大多数人的生活带来了便利。但其高速的发展,却也不免带来了这样一个问题:

如果有人跟不上技术发展的节奏,怎么办?

这其实就是技术人员要做的事,让弱势群体也能够感受到科技的温度

有人给出了这样的答案,并且就在最近,身体力行实践了这句话——

把AI实时字幕,带进了中国聋人协会的手语课堂。

一群工程师,让听障群体“看见”了声音

不一样的课堂

疫情期间,上网课成为了一种常态。对于经常为听障人群组织培训、会议的中国聋人协会而言,这种线上远程开会、上课的需求也越来越多。

问题是,对于听障人士而言,这样的工作、学习方式天然存在着种种障碍。

视频没有字幕,就是其中一种。

虽然很大一部分聋人群体,能在助听器和人工耳蜗的帮助下听见外界的声音,但“听到”不代表“听清”,他们的声音世界仍像是被打上了马赛克,日常的沟通交流往往还是需要辅以文字。

一群工程师,让听障群体“看见”了声音

如何能让这个特殊群体更简单地获取学习资源,参与培训、会议?

中国聋协想到了AI——现在在很多会议活动里,都能见到AI实时字幕的身影,那么能不能把这样的AI能力带到聋协的培训课堂里呢?

说来也巧,当中国聋协主席杨洋在同钉钉的一次工作会议上提出这一想法,立即便得到了对方的响应。

彼时,钉钉的工程师们正好在为钉钉的视频会议、直播产品开发类似的功能。得知聋协的诉求,钉钉技术团队当即决定,联合阿里达摩院团队,为听障群体搭建一套基于钉钉的无障碍工作平台。

初战未捷

实战的机会很快就到来。

深圳聋协组织了一场手语翻译培训,需要钉钉进行AI实时字幕的技术支援。

据钉钉直播智能翻译技术负责人卜瑞回忆,当时,留给技术团队的准备时间并不多:周一周二功能刚在钉钉上线内测,周六就要第一次公开使用。

不过一开始,卜瑞和他的同事们都颇有信心——虽然功能刚刚上线,但背后的技术方案其实已经相对成熟。

一群工程师,让听障群体“看见”了声音

钉钉这次提供给聋协的AI实时字幕解决方案,核心采用的是达摩院语音实验室的E2E-ASR(端到端语音识别)技术。早在2020年9月的云栖大会上,达摩院就对外公布过相关技术进展:

基于达摩院提出的SAN-M网络结构,及基于SCAMA的流式端到端语音识别框架,在提升计算效率的同时,还能将高难度场景中的语音识别错误率降低近三成。并且,该技术解决了高精度语音交互任务长期依赖云端算力、语音指令出现延时等问题,使得基于该框架的整套语音识别系统可以部署在手机端。

相关论文,均已发表在了语音技术顶会INTERSPEECH上。

谁曾想,在聋协的第一次实战,培训现场还是出现了不少在工程师们意料之外的情况。

一方面,听障人群之间,会用到“聋人”、“听人”这一类平时不常见的专用词汇。钉钉的语音识别AI初来乍到,没有经过特训,一时间在这样的词汇识别上出了不少错。

更为严重的是,在第一场培训中,还出现了字幕显示着显示着就没了的情况。甚至在卜瑞和同事们拉来了阿里云视频云、达摩院的技术人员紧急“会诊”之后,情况也未能得到彻底的解决。

很尴尬,觉得有点辜负了参与培训的老师、同学们的期待。

“终于松了口气”

初战未捷,成为了悬在卜瑞和同事们头上的一朵阴云,回到大本营之后,便迅速开始了问题的排查。

事实上,像深圳聋协此次组织的手语培训课程,在形式上与正常的视频直播还是有不小的区别。

因为很多听障人士其实是看不懂手语的,所以在手语老师之外,这样的课程中还会有一位负责翻译手语的口语老师。也就是说,在这样一场直播中,口语老师和手语老师要保持全程连麦。

并且跟我们常见的新闻播报场景相反,口语老师接入的窗口并非主窗口,而是左下角的次窗口。因此语音流也是从次窗口输入的。

一群工程师,让听障群体“看见”了声音

从系统流程上讲,要在这个场景中部署AI实时语音,是这样一个过程:

主播通过钉钉直播开启语音识别的功能,在主播的直播推流到阿里云CDN后,会分别被云导播跟ASR服务拉取,云导播服务负责字幕样式,实时展示,音、画、字的同步校准,以及链路的高可用等。

ASR服务则只负责解析音频数据,对音频重采样后输出给达摩院语音识别模块,生成字幕流并将其传给云导播。

云导播收到字幕流后,会计算显示时间戳(pts)时间,根据pts做音、画、字同步对齐,最终混流回推CDN,分发给用户播放。

回溯整个流程,技术人员们很快发现,在内部测试时,由于网络条件良好,次窗口的音频流和主窗口的视频流之间偏差不大,在可以容忍的范围之内。

但真正到了培训现场,网络情况较差,经常会出现抖动。这种持续的网络不稳定慢慢积累,就使得偏差超出了技术方案的容忍度范围,导致出现掉字幕的情况。

找到了原因,技术团队便立即着手对方案进行优化。一方面,是针对听障人群的特殊语料库,对语音模型进行特训。

另一方面,更换推拉流协议,打通与CDN传输状态的深度感知,增强网络波动兼容性。并改进时间戳对齐算法,采用滑动对齐的方式,确保在弱网抖动的情况下,当主播或连麦者客户端掉线发生闪断重推时,不会影响云导播对音、画、字的处理,对于观众来说看到的只是画面出现了轻微的卡顿。

方案调整之后,在第二周的培训课程中,AI实时字幕全程表现稳定,参与培训的老师学员纷纷表示“很有帮助,体验不错”。

卜瑞和同事们悬着的心也终于放了下来:

总算是松了口气,一周前丢的脸给挣回来了。

不一样的成就感

就在几天前,中国聋人协会正式宣布,基于钉钉搭建的无障碍工作平台会广泛投入使用,中国聋协系统全国31个省份、80多个城市的听障人士,均可利用语音转文字、AI实时字幕,无障碍开展视频会议、直播、网课学习等。

一群工程师,让听障群体“看见”了声音

像AI实时字幕这样的功能实现,在一些to B的场景中其实并不鲜见,但也往往费用不菲。

此次协助中国聋协上线无障碍平台,钉钉又投入了多少人力、资源成本?

谈及这个问题,钉钉音视频资深技术专家胡洪卫回答说,在这个项目上,他们秉持公益心态,因此并没有太多地考虑成本问题。

从人力的角度来说,因为参与项目的还包括达摩院、钉钉生态伙伴等各方力量,后续还会保障无障碍平台功能的长期迭代,因此也不太好衡量。

不过,有一个答案是肯定的,做这个项目,“很值”。

在帮助聋协上线AI实时字幕的过程中,有来自听障朋友的反馈是这样的:

听障带来的影响,其实不只是日常沟通、交流方面存在障碍,还会延伸到很多方面。

比如职业天花板很明显,接受再教育的难度很大。

客观的现实就是,社会上大部分和职业提升有关的公开课程,比如医疗、法律、管理课程等,并不会专门为听障群体准备字幕。

AI实时字幕这样的功能,给特殊人群带来了新的可能性。

听到这样的反馈,胡洪卫、卜瑞等工程师真正感觉到自己作为技术人员,正在用技术创造社会价值。“那种自豪的感觉和精神上的鼓舞,是以前窝在实验室里做算法Demo时体会不到的”。

科技向善,不外如是。

科技的发展无疑会给人们的生活带来改变,但这种变化之中,人和技术本身不应该是对立的。

这一次,AI就给出了一张高分答卷,你觉得呢?

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关阅读