唇语_草庐IT

Meta开源像语言识别系统，模型识别唇语翻译6种语言，本地部署人人可用

不知道大家是否还记得年初火爆全网的反黑大剧《狂飙》中，最后几集因为导演删改剧情，演员嘴型和台词完全对不上的事吗？后边有懂唇语的硬核剧迷，为了看到原版剧情，直接开始翻译。来源：娱乐寡姐Meta最近开源了一个AI语音-视频识别系统：MuAViC，让大家动一动手指头，就能看懂没有声音的人物讲了啥，还能精确识别嘈杂背景当中特定人物的语音。Meta利用TED/TEDx的视频语音素材，制作了MuAViC中的数据集。其中包含了1200小时，9种语言的文本语音视频素材，还有英语与6种语言之间的双向翻译。语音识别数据的详细内容：英语到6种语言翻译的素材具体包括：6种语言到英语的翻译素材具体包括：论文针对这个系统

识别语言 span text-align style 人工智能新闻开源语音识别

科学家研发人工智能声呐眼镜：可识别唇语，准确率达95%

美国康奈尔大学的研究人员开发了一种新技术，可以通过声纳眼镜进行无声沟通。这种眼镜利用微型扬声器和麦克风来读取佩戴者默念的单词，从而可以在不需要物理输入的情况下执行各种任务。这项技术由康奈尔大学的博士生张瑞东（音译）领导开发，是在一个类似的项目的基础上进行的改进，该项目使用了一个无线耳机，而之前的模型则依赖于摄像头。据IT之家了解，该声纳眼镜使用一种名为EchoSpeech的无声语音识别接口，利用声纳来感知嘴部运动，同时使用一个深度学习算法实时分析回波特征。这使得系统能够以约95%的准确率识别佩戴者默念的单词。这项技术最令人兴奋的前景之一是，对于有语言障碍的人来说，可以使用它来无声地将对话输入到

准确率科学家康奈 text-align 康奈尔大学人工智能唇语

科学家研发人工智能声呐眼镜：可识别唇语，准确率达95%

美国康奈尔大学的研究人员开发了一种新技术，可以通过声纳眼镜进行无声沟通。这种眼镜利用微型扬声器和麦克风来读取佩戴者默念的单词，从而可以在不需要物理输入的情况下执行各种任务。这项技术由康奈尔大学的博士生张瑞东（音译）领导开发，是在一个类似的项目的基础上进行的改进，该项目使用了一个无线耳机，而之前的模型则依赖于摄像头。据IT之家了解，该声纳眼镜使用一种名为EchoSpeech的无声语音识别接口，利用声纳来感知嘴部运动，同时使用一个深度学习算法实时分析回波特征。这使得系统能够以约95%的准确率识别佩戴者默念的单词。这项技术最令人兴奋的前景之一是，对于有语言障碍的人来说，可以使用它来无声地将对话输入到

准确率科学家康奈 text-align 康奈尔大学人工智能唇语