DeepMind与牛津大学打造唇语AI系统,准确率更胜专家
Alphabet旗下的人工智慧子公司DeepMind与牛津大学工程科学系的科学家们上周发表了一篇以人工智慧型协助辨识唇语的 研究报告 ,显示利用机器学习辨识唇语的准确率大胜专家。
研究人员先以大量的资料来训练此一基于机器学习的AI系统,这批资料来自BBC于2010年1月到2015年12月所播出的6个电视节目,总长是5000小时,包含了11.8万个句子,训练完毕之后,再以BBC于今年3月到9月播出的节目进行测试。
其实有些影片的唇型及声音并不同步,但研究人员假设多数影片与声音是同步的,系统便能自动学习以校正声音及嘴型的连结 。
该AI系统与专家一起辨识从测试资料集中随机选出的200个片段,根据New Scientist的报导,专家准确无误辨识出每个字的机率只有12.4%,AI系统则达到46.8%。
研究人员认为人工智慧唇语系统可用来改善助听器功能,或是在不能出声的公开场合中进行听写,也可在吵杂的环境中辨识他人的言语。
