草庐IT

厉害了!看嘴型竟然就能识别发音

数据堂官方账号 2023-08-22 原文

根据嘴型就能判断出人们在说什么,这就是唇语识别。

唇语识别并非最近才出现的技术,早在2003年,Intel就开发了唇语识别软件AVSR。2016 年,Google DeepMind的唇语识别技术就已经可以支持17500个词,新闻测试集识别准确率达到了50%以上。

唇语识别就是让AI“光看嘴型就知道你在说什么”

唇语识别技术的原理是使用机器视觉技术,从图像中识别出人脸,判断其中正在说话的人,并提取此人连续的口型变化特征。

随后,将连续变化的口型特征输入到唇语识别模型中识别出对应的发音。最后,根据识别出的发音再计算出可能性最大的自然语言语句。

去年,国内知名AI企业搜狗与清华天工研究院合作,在语音和唇语的多模态识别方面取得了重大成果,相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在去年的学术会议ICASSP上。

论文提到,纯粹依靠语音的识别方式存在一个缺陷,就是无法在嘈杂环境下仍然保持较高的识别准确率。

而视觉的识别方法不受环境声音的影响,在听不清对方讲话时,人们会自然的盯紧讲话者的嘴巴,而听力障碍人士正是通过唇语进行交流的。

搜狗研究人员想到,如果让AI也能把这两种方法结合起来,即所谓的“多模态”识别,就能提高语音识别的准确率。

在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下,搜狗唇语识别系统甚至已经达到90%的准确率。

搜狗在第四届世界互联网大会上展示的唇语识别系统

作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

搜狗相关负责人在2017年互联网大会上明确提出,希望唇语识别技术能够帮助听障人士“翻译”正常人语言,通过唇读技术把语音转换成文字,帮助他们更好地了解世界。

在车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性。

在安防领域,由于目前多数监控只有摄像头没有麦克风,给案情分析带来很多难题,唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。

可以预想,加入唇语识别技术后,公安人员可通过平台锁定视频中犯罪嫌疑人的语言记录,将极大助力犯罪缉查工作的开展。

在公路、会议室、火车站等噪音嘈杂的场景中,唇语识别可以帮助规避音频噪声对用户说话内容获取的影响,确保视屏或语音交流顺畅进行。

虽然唇语识别应用广泛,但依然面对较大研发难度

由于唇语识别是一项基于机器视觉与自然语言处理于一体的技术,所以在研发难度上比语音识别大得多。

通常情况下,唇语识别系统会使用复杂端到端深度神经网络技术进行语言唇语序列建模,并通过数千小时的真实唇语数据进行训练。

数据堂深耕于AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务,行业内高标准的《156小时唇形同步多模态视频数据》和《1,998人唇语视频数据》广受重视和好评,能够助力唇语识别技术落地更多应用场景。

156小时唇形同步多模态视频数据

这是一套由250人参与录制语音以及相匹配的唇语视频。工作人员使用多设备同步录制,录制内容包括普通话的短指令和口语句子,通过脉冲信号进行精准对齐,句准确率不低于95%。数据可用于唇语识别、语音图像领域的多模态学习算法研究。

1,998人唇语视频数据

数据由1998人参与录制,数据集中包含41,866段视频,总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中,被采集人读取8位阿拉伯数字。标注人员对视频拍摄时间、读取内容进行标注,准确率不低于95%,该数据可用于唇语识别任务场景。

业内人士预计,鉴于在公共安全、身份识别、残障教育、军事等领域的竞争力,唇语识别技术或将开启万亿级的大数据市场。

但鉴于语言环境的复杂性,唇语识别真正投入实战还尚需时日,仍需进一步加强大数据、可视分析、人工智能技术等领域的融合研究。

有关厉害了!看嘴型竟然就能识别发音的更多相关文章

  1. 报告回顾丨模型进化狂飙,DetectGPT能否识别最新模型生成结果? - 2

    导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri

  2. [Vuforia]二.3D物体识别 - 2

    之前说过10之后的版本没有3dScan了,所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序,扫描现实中的三维物体,然后上传高通官网,在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载,是一个安卓程序。点到Tools往下滑,找到VuforiaObjectScanner下载后解压数据线连接手机,将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开,两个PDF图打印第一张A4-ObjectScanningTarget.pdf,主要是用来辅助扫描的。好了,接下来就是扫描三维物体。将瓶

  3. ruby-on-rails - 在 heroku 的 .fonts 文件夹中包含自定义字体,似乎无法识别它们 - 2

    Heroku支持人员告诉我,为了在我的Web应用程序中使用自定义字体(未安装在系统中,您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是,我不知道文件名是否必须遵循heroku的任何特殊模式,或者我必须在我的代码中做一些事情来考虑这种字体,或者如果我将它包含在文件夹中它是自动的......事实是,我尝试以不同的方式更改字体的文件名,但根本没有使用该字体。为了提供更多详细信息,我们使用字体的过程是将PDF转换为图像,更具体地说,使用rghostgem。并且最终图像根本不使用自定义字体。在

  4. ruby-on-rails - 没有这样的文件或目录 - 用 Mini Magick 识别 - 2

    在我让另一个人重做我的前端UI之前,我的Rails应用程序运行平稳。我已经尝试解决此错误3天了。这是错误:Nosuchfileordirectory-identifyExtractedsource(aroundline#59):575859606162@post=Post.find(params[:id])authorize@postif@post.update_attributes(post_params)flash[:notice]="Postwasupdated."redirect_to[@topic,@post]else{"utf8"=>"✓","_method"=>"patc

  5. ruby - 使用 ruby​​ 识别阵列上的运行 - 2

    如果我们有一个数组array=[1,1,0,0,2,3,0,0,0,3,3,3]我们如何识别给定数字的运行(具有相同值的连续数字的数量)?例如:run_pattern_for(array,0)->2run_pattern_for(array,3)->1run_pattern_for(array,1)->1run_pattern_for(array,2)->0没有2的运行,因为没有连续出现2。3有一个运行,因为只有一个幻影以树为连续数字。 最佳答案 尝试:classArraydefcount_runs(element)chunk{|n

  6. 最新版人脸识别小程序 图片识别 生成二维码签到 地图上选点进行位置签到 计算签到距离 课程会议活动打卡日常考勤 上课签到打卡考勤口令签到 - 2

    技术选型1,前端小程序原生MINA框架cssJavaScriptWxml2,管理后台云开发Cms内容管理系统web网页3,数据后台小程序云开发云函数云开发数据库(基于MongoDB)云存储4,人脸识别算法基于百度智能云实现人脸识别一,用户端效果图预览老规矩我们先来看效果图,如果效果图符合你的需求,就继续往下看,如果不符合你的需求,可以跳过。1-1,登录注册页可以看到登录页有注册入口,注册页如下我们的注册,需要管理员审核,审核通过后才可以正常登录使用小程序1-2,个人中心页登录成功以后,我们会进入个人中心页我们在个人中心页可以注册人脸,因为我们做人脸识别签到,需要先注册人脸才可以进行人脸比对,进

  7. ruby-on-rails - 尝试登录和使用 heroku 时无法识别 ruby​​.exe - 2

    当尝试创建一个heroku应用程序并通过git推送到它时,我收到以下错误:$herokucreate'"C:\ProgramFiles\ruby-1.9.2\bin\ruby.exe"isnotrecognizedasaninternalorexternalcommand,operableprogramorbatchfile.但是,$ruby-vruby1.9.3p125[i386-mingw32]我已经检查了PATH环境,它肯定包含“C:\ProgramFiles(x86)\ruby-1.9.2\bin”。同样有趣的是,当导航到该目录时,它实际上并不包含名为ruby​​.exe的文件

  8. 基于Python的人脸识别课堂系统(毕设)——附录上 - 2

    本文章承接《基于Python的人脸识别课堂考勤系统(毕设)》,填坑上篇文章遗留的代码部分。因为项目分的模块比较多,再加上本人能力有限,所以代码过于臃肿还存在许多优化的地方。同样本篇文章也仅适用于小白,零基础人群。PS:每个文件之中代码都已经区分开来,可以对照左侧目录部分实现快速预览!    由于代码过于多我这里分成上,下两个部分来发布吧!一、主文件importosimportsysimportrandomimportpymysqlimportcv2importnumpyasnpfrommathimportpifrommatplotlibimportpyplotaspltfromPILimpor

  9. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  10. Ruby/rspec 无法识别与前一个模块同名的 Ruby 类 - 2

    我有一个ruby​​类Feedbin,它以前是一个模块的名称。当我尝试调用类中的任何方法时,会抛出一个TypeError:`':Feedbinisnotaclass(TypeError)当我更改类的名称时,例如附加一个s,事情似乎按预期工作。同一个程序过去也有一个名为Feedbin的模块,但该模块已不存在。旧的:moduleFeedbinclassApiendend新:classFeedbinend如何摆脱“Feedbin不是一个类”类型的错误?这是什么原因造成的? 最佳答案 不能将非类模块更改为类。一旦定义了一个(非类)模块,就不

随机推荐