带你了解语音识别技术的发展历史

移动Labs 2023-03-28 原文

作者｜杨军，单位：中国移动雄安产业研究院

Labs 导读

语音识别相信大家并不陌生，近些年来语音识别技术的应用层出不穷，同时也更加智能。从开始我们简单的询问“你是谁”，到现在可以与我们进行多轮对话，理解我们的意思甚至是心情，语音识别已经实现了长足的发展。可能大多数人觉得语音识别是近些年才出现的技术，其实不然，下面让我们一起从语音技术的历史展开来看。

Part 01 语音识别近70年发展史

1952年，贝尔实验室发明了自动数字识别机，科学家对智能语音有了模糊的概念，可能这时科学家们就已经在畅想我们如今实现的这一切。

1964年，IBM在世界博览会上推出了数字语音识别系统，语音技术也自此走出了实验室，为更多人知晓，贝尔实验室的梦想也变成了更多人的梦想。

1980年，声龙推出了第一款语音识别产品Dragon Dictate，这是第一款面向消费者的语音识别产品。虽然梦想第一次照进了现实，但其高达9000美元的售价，很大程度增加了智能语音技术的普及难度。

1997年，IBM推出它的第一个语音识别产品Via Voice。在中国市场，IBM适配了四川、上海、广东等地方方言，Via Voice也真正的为更多消费者接触、使用到。

2011年，苹果首次在iphone4s上加入智能语音助手Siri。至此，智能语音与手机深度绑定，进入广大消费者的日常生活。随后国内各大手机厂商也先后跟进，为手机消费者提供了五彩缤纷的语音识别功能。

此后，语音识别技术的应用，并没有局限于手机，而是扩展到了各种场景。从各种智能家居，如智能机器人、智能电视、智能加湿器等，到现在智能汽车，各大传统厂商以及造车新势力纷纷积极布局智能座舱。可见智能语音技术已经在我们的衣食住行各个方面得到了广泛应用。

Part 02 语音识别技术简介

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入。语音识别技术属于人工智能方向的一个重要分支，涉及许多学科，如信号处理、计算机科学、语言学、声学、生理学、心理学等，是人机自然交互技术中的关键环节。

Part 03 语音识别基本流程

ASR：指自动语音识别技术（Automatic Speech Recognition），是一种将人的语音转换为文本的技术。

NLU：自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称。

NLG：自然语言生成(Natural Language Generation，NLG)是一种通过计算机在特定交互目标下生成语言文本的自动化过程，其主要目的是能够自动化构建高质量的生成人类能够理解的语言文本。

上图展示了一个语音识别的基本流程，用户发出指令后，mic收集音频，完成声音到波形图的转换，通过波形图与人类发音的波形图做对比，可以识别出说的具体音节，通过音节，组合成词、句子，再结合大数据分析出说的最匹配的话，然后NLU模块开始工作，分析出这句话的意图（intent）、域（Domain）等各种信息。分析出意图后开始对话管理DM（Dialog Manager），通过后台数据查询应该给用户什么反馈。然后交给NLG模块，通过查出来的信息，生成自然语言，最后通过TTS模块，将文字转回成波形图并播放声音。

上面的流程涉及到的学科、知识都比较多，由于篇幅原因，不一一展开描述，在这里我节选出ASR来进行相对详细些的学习。

Part 04 ASR实现原理简单剖析

我们首先从ASR声音源来看，当一位用户发出指令，比如说：我爱你。这时麦克风会收集音频到存储设备。我们通过音频处理软件（如Audacity）打开后可以发现音频是一段波形图。

但是这段波形图并没有什么直观的有意义的信息，它的高低只代表了声音的大小，横轴也仅仅是时间。语音识别本身是基于大数据的分析技术，分析的基础是数据的准确，声音大小和发音的时间长短很难有什么统计学的意义，所以此时我们需要对音频进行处理。（这段波形图是四句我爱你的波形图）。

处理的一种常用方法是傅里叶变换，通过傅里叶变换，我们可以将时间维度的波形图，转换成频率维度的波形图。

为什么要处理成频率的维度呢？

因为我们都知道，人类发出的声音，能听到的声音大概在一个频段内。这涉及到生物学、声学的知识，我们人类的身体构造大致相同，这里想当然一下，尽管有个体差异、有性别差异，我们发出的声音的频率相差不会很大。这样我们就把没有统计意义的声音波形图处理成了频率图。

但是我们的时间维度也不能丢掉，我们在将声音分割之后（这里涉及到声音预处理、分帧等知识，暂不展开），可以根据本地的声学模型做比对，看每一帧时间内发出的音素是什么。中文的话，音素指的是我们发音的一个字母，比如“我”由两个音素组成：w和o。

到现在我们知道了如何将声音从音频文件处理成音素。之后再通过语言学、统计学等技术，结合具体语境，将音素组合成词，将词组成句子，从而识别出用户说的语句，ASR大致流程就完成了。

上面的方式其实属于语音识别各种技术中较为简单的一部分，在实际应用中可能还包括各种各样的技术，比如声学特征提取的MFCC方式、上面声音预处理的降噪、分帧、加窗、端点检测等技术。

Part 05 语音识别及相关技术展望和我们能做的事情

随着硬件技术提升、5G技术普及，我们可以在后端对海量的数据进行处理，依靠5G技术的稳定和低时延，为用户提供更可靠、顺畅的服务，可以预见在不久的将来，语音识别及其相关技术必将更加智能、更加稳定。中国移动作为国内拥有绝对用户基础数量优势的电信运营商，可以依靠5G优势、规模优势为用户提供更好的服务，为智慧城市提供有力的保障，为国家发展作出更多的贡献。

发展历史带你的音素 data 移动开发移动应用 $语音识苹果频率

有关带你了解语音识别技术的发展历史的更多相关文章

报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
[Vuforia]二.3D物体识别 - 2
之前说过10之后的版本没有3dScan了，所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序，扫描现实中的三维物体，然后上传高通官网，在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载，是一个安卓程序。点到Tools往下滑，找到VuforiaObjectScanner下载后解压数据线连接手机，将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开，两个PDF图打印第一张A4-ObjectScanningTarget.pdf，主要是用来辅助扫描的。好了，接下来就是扫描三维物体。将瓶
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
ruby-on-rails - 在 heroku 的 .fonts 文件夹中包含自定义字体，似乎无法识别它们 - 2
Heroku支持人员告诉我，为了在我的Web应用程序中使用自定义字体(未安装在系统中，您可以在bash控制台中使用fc-list查看已安装的字体)我必须部署一个包含所有字体的.fonts文件夹里面的字体。问题是我不知道该怎么做。我的意思是，我不知道文件名是否必须遵循heroku的任何特殊模式，或者我必须在我的代码中做一些事情来考虑这种字体，或者如果我将它包含在文件夹中它是自动的......事实是，我尝试以不同的方式更改字体的文件名，但根本没有使用该字体。为了提供更多详细信息，我们使用字体的过程是将PDF转换为图像，更具体地说，使用rghostgem。并且最终图像根本不使用自定义字体。在
ruby-on-rails - 没有这样的文件或目录 - 用 Mini Magick 识别 - 2
在我让另一个人重做我的前端UI之前，我的Rails应用程序运行平稳。我已经尝试解决此错误3天了。这是错误:Nosuchfileordirectory-identifyExtractedsource(aroundline#59):575859606162@post=Post.find(params[:id])authorize@postif@post.update_attributes(post_params)flash[:notice]="Postwasupdated."redirect_to[@topic,@post]else{"utf8"=>"✓","_method"=>"patc
ruby - 了解在 Ruby 中与 lambda 一起使用的 inject 行为 - 2
我经常将预配置的lambda插入可枚举的方法中，例如“map”、“select”等。但是“注入(inject)”的行为似乎有所不同。例如与mult4=lambda{|item|item*4}然后(5..10).map&mult4给我[20,24,28,32,36,40]但是，如果我制作一个2参数lambda用于像这样的注入(inject)，multL=lambda{|product,n|product*n}我想说(5..10).inject(2)&multL因为“inject”有一个可选的单个初始值参数，但这给了我......irb(main):027:0>(5..10).inject
ruby-on-rails - 如何测试自己对 Ruby/ROR 的了解？ - 2
是否有self验证的问题列表。看着那个，我可以确定我知道。我应该复习一下。在学习的过程中，我列了一个这样的list，但它只包含我在某处听说过的项目。我需要一段时间才能找到新的东西。最佳答案以下是针对ruby和Rails的一些测试列表。证书名称:RubyonRails谁提供:oDeskIncorporation认证费用:免费网站:https://www.odesk.com/tests/985?pos=0证书名称:RubyonRails提供者:Techgig.com(TimesBusinessSolutionsLimited(T
ruby-on-rails - 了解 "attribute_will_change!"方法 - 2
我想覆盖store_accessor的getter。可以查到here.代码在这里:#Fileactiverecord/lib/active_record/store.rb,line74defstore_accessor(store_attribute,*keys)keys=keys.flatten_store_accessors_module.module_evaldokeys.eachdo|key|define_method("#{key}=")do|value|write_store_attribute(store_attribute,key,value)enddefine_met
ruby-on-rails - 用于门户的 Ruby 技术 - 2
我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件，而且编程最少，即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么？Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格？最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails，这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项，非常适合面向社区的站点。它