草庐IT

Meta开源像语言识别系统,模型识别唇语翻译6种语言,本地部署人人可用

不知道大家是否还记得年初火爆全网的反黑大剧《狂飙》中,最后几集因为导演删改剧情,演员嘴型和台词完全对不上的事吗?后边有懂唇语的硬核剧迷,为了看到原版剧情,直接开始翻译。来源:娱乐寡姐Meta最近开源了一个AI语音-视频识别系统:MuAViC,让大家动一动手指头,就能看懂没有声音的人物讲了啥,还能精确识别嘈杂背景当中特定人物的语音。Meta利用TED/TEDx的视频语音素材,制作了MuAViC中的数据集。其中包含了1200小时,9种语言的文本语音视频素材,还有英语与6种语言之间的双向翻译。语音识别数据的详细内容:英语到6种语言翻译的素材具体包括:6种语言到英语的翻译素材具体包括:论文针对这个系统

科学家研发人工智能声呐眼镜:可识别唇语,准确率达95%

美国康奈尔大学的研究人员开发了一种新技术,可以通过声纳眼镜进行无声沟通。这种眼镜利用微型扬声器和麦克风来读取佩戴者默念的单词,从而可以在不需要物理输入的情况下执行各种任务。这项技术由康奈尔大学的博士生张瑞东(音译)领导开发,是在一个类似的项目的基础上进行的改进,该项目使用了一个无线耳机,而之前的模型则依赖于摄像头。据IT之家了解,该声纳眼镜使用一种名为EchoSpeech的无声语音识别接口,利用声纳来感知嘴部运动,同时使用一个深度学习算法实时分析回波特征。这使得系统能够以约95%的准确率识别佩戴者默念的单词。这项技术最令人兴奋的前景之一是,对于有语言障碍的人来说,可以使用它来无声地将对话输入到

科学家研发人工智能声呐眼镜:可识别唇语,准确率达95%

美国康奈尔大学的研究人员开发了一种新技术,可以通过声纳眼镜进行无声沟通。这种眼镜利用微型扬声器和麦克风来读取佩戴者默念的单词,从而可以在不需要物理输入的情况下执行各种任务。这项技术由康奈尔大学的博士生张瑞东(音译)领导开发,是在一个类似的项目的基础上进行的改进,该项目使用了一个无线耳机,而之前的模型则依赖于摄像头。据IT之家了解,该声纳眼镜使用一种名为EchoSpeech的无声语音识别接口,利用声纳来感知嘴部运动,同时使用一个深度学习算法实时分析回波特征。这使得系统能够以约95%的准确率识别佩戴者默念的单词。这项技术最令人兴奋的前景之一是,对于有语言障碍的人来说,可以使用它来无声地将对话输入到