Vicon动捕,成就“看得见”的声音信息
世界卫生组织2021年的《世界听力报告》显示,全球约20%人口,即15亿人有听力损失,到2050年,预计近25亿人患有听力损失。结合我国第七次全国人口普查数据及第二次全国残疾人抽样调查的数据推算,2021年末我国听力语言障碍残疾人数约为3001万人,占残疾人总人数的1/3。
不知道看到这组数据,大家都作何感想,你又是否考虑过听障群体的无障碍交流和信息获取问题呢?
作为少数几个将手语列为官方语言的国家之一,新西兰在认可和推广手语方面走在世界前列。新西兰手语翻译员经常会出现在各类媒体和社交场所之中,甚至新西兰总理都在积极宣传和学习新西兰手语(New Zealand Sign Language,简称NZSL),每次内阁会议后的新闻发布会,她都会配备手语翻译。这些举措不仅增加了聋人群体获取信息的机会,也促进人们意识到手语对于聋人群体平等参与社会生活和事务的重要性。
但手语翻译员的数量毕竟是有限的,要想让听障人士能够与普通人信息平等,让更多的声音信息可视化,就必须依靠科技力量,形成生产级的手语信息体系。新兰西的 Kara Technology就是这样一个线上平台,Kara Technology通过动作捕捉、人工智能和超写实数字人技术,将视频、音频或文本等各种媒体内容翻译成手语。旨在消除听障群体和失听儿童在独立学习和阅读以及教育的不平等,让听障人士可以随时随地无障碍地访问服务地点和信息,实现手语服务的7*24全天候数字可用性。
众所周知,手语是一门完整的语言。它有特殊的语法、专业的词汇、独特的文化和复杂的手势,所以手语翻译是非常复杂的。那么Kara Technology是如何将文本/音频/视频信息转化为手语的呢?
Kara Technology利用最先进的Vicon动作捕捉系统来精准捕捉真人手语表演者的肢体和手部动作,动作捕捉数据与面捕得到的表情数据一起输入到专用的流程中,通过Kara Technology开发的处理词汇数据集的高级算法,将输入的信息及数据整合处理,就可以输出完整的手语动画了。Kara Technology的联合创始人 Farhour 补充道:“系统生成的手语动画是基于动作捕捉数据而来的,动作间的过渡则是算法自动创建的,将数字角色与它们对应组合在一起就是最终输出的内容。”
Kara Technology团队把它们的手语翻译工作分为三个等级。对于一级翻译,他们会采用真人Vicon动作捕捉加数字形象的方式进行。二级翻译中,他们在数字形象的基础上会使用了少量的真人Vicon动作捕捉和一些视觉智能技术,以生成真实、自然、准确的手语动画。对于三级翻译,只需要输入基本文本或音频,应用程序即可调用预置的动捕手语数据库,在 AI技术的加持下,即可自动生成数字手语动画。目前,Kara Technology的工作多数处于第二级。由此可见,Kara Technology的手语翻译过程并不是实时的,但它能够非常快速地生成。
据悉,Kara Technology团队已经制作了一系列手语数字人,发行了《The Very Hungry Caterpillar(饥饿的毛毛虫)》等数本手语翻译的儿童读物视频、用数字人手语翻译了数本儿童教育材料。
目前,Kara Technology还在尝试通过预先录制的Vicon运动捕获数据来创建即时的手语版紧急消息,以应对发生地震或海啸等无法及时寻找真人手语翻译员的突发状况时的紧急通知,及时将预警信息传达给所有人。Kara Technology希望在未来,世界各地的电视节目、银行柜机、线上网站、在线表格、剧院、公共交通、社交媒体、游戏和虚拟现实技术等都可以配备手语数字人及影像来进行公共服务信息的传达。
结语
Kara Technology的数字人手语翻译技术,正在用科技改变着听障人士的生活,为这一群体带来更多的社会关怀和信息平等权利,更为各国推动手语数字化,用动捕技术和数字人技术助力无障碍事业发展开辟了新思路。
迪生数字,愿用Vicon动捕技术,与全社会一道,推动国内手语数字化的发展和其他无障碍事业的数字化创新。关注迪生,了解更多动作捕捉服务和行业动态。
迪生数娱
点击了解更多迪生数娱