草庐IT

voice-recognition

全部标签

c++ - 对有限数量的命令进行快速语音识别

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion有没有人有使用C++(Windows和/或Mac)编写有限数量的SPEED命令的语音识别编程经验?在这一点上,从第一个音节开始识别命令是否现实——即,命令在用户以相当快的语速进入第二个音节时被识别?所有命令都将被编程为以不同的音节开始,

c# - 寻找发音正确性

我需要借助Microsoft语音SDK(System.Speech.Recognition)来识别用户发音的“质量”。我正在使用MSSpeechEngine-US,所以我真正需要的是找出说话者的声音与“北美”口音的接近程度。执行此操作的一种方法是检查用户的语音与美国英语语音发音的接近程度。正如MSDN中提到的,这个过程似乎是在语音SDK中自行完成的,所以我需要把它弄出来。既然我们也可以自己给引擎设置语音,我相信这是可能的。但是,我不清楚我必须做什么。那么,怎样才能知道用户的发音质量/与美国北美英语语音发音的接近程度呢?用户只需说出预定义的句子,例如“HelloWorld。我在这里”。更

c# - 如何在 C# 中将语法(规则)和听写(自由言论)与 SpeechRecognizer 混合使用

我非常喜欢Microsoft最新的语音识别(和SpeechSynthesis)产品。http://msdn.microsoft.com/en-us/library/ms554855.aspxhttp://estellasays.blogspot.com/2009/04/speech-recognition-in-cnet.html但是我觉得我在使用语法时有些局限。不要误会我的意思,语法非常适合告诉语音识别准确地注意哪些单词/短语,但是如果我想让它识别我没有提醒过的东西怎么办?或者我想解析一个短语,它一半是预先确定的命令名称,一半是随机单词?例如..场景A-我说“Google[OilSp

c# - System.Speech.Recognition 备选匹配项和置信度值

我正在使用System.Speech.Recognition命名空间来识别口头句子。我对识别器提供的替代句子及其置信度分数感兴趣。来自[RecognitionResult.Alternates][1]的文档属性:RecognitionAlternatesareorderedbythevaluesoftheirConfidenceproperties.Theconfidencevalueofagivenphraseindicatestheprobabilitythatthephrasematchestheinput.Thephrasewiththehighestconfidenceval

c# - 单声道语音识别

有什么方法可以将语音识别功能添加到单声道应用程序中。有一个System.Speech(在.net中)和Microsoft.Speech(在MSSpeechPlatform中)namespace,但我在Mono中找不到任何namespace。那么如何在Mono中添加语音识别功能呢? 最佳答案 查看此链接:MonoSystem.Speech似乎现在支持System.Speech.Recognition。您是否正在提取最新的(3.0+)tarball并构建您自己的Mono运行时? 关于c#-单

javascript - Angular 2 : Web Speech API - Voice recognition

阅读webkitSpeechRecognition的文档后(Javascript中的语音识别)我试图在Angular2中实现它.但是当我这样做的时候:constrecognition=newwebkitSpeechRecognition();typescript说这个错误:[ts]Cannotfindname'webkitSpeechRecognition'.any如果我尝试从window中提取webkitSpeechRecognition:if('webkitSpeechRecognition'inwindow){console.log("Entersinsidetheconditi

非常小的字典的Java语音识别

我有MP3音频文件,其中包含计算机留下的语音邮件。消息内容始终采用相同的格式,由相同的计算机语音留下,只是内容略有不同:“您今天卖出了4辆汽车”(其中4可以是0到9之间的任何数字)。我一直在尝试设置Sphinx,但开箱即用的模型效果不是很好。然后我尝试编写自己的声学模型,但还没有取得更好的成功(30%无法识别是我最好的)。我想知道语音识别对于这项任务是否有点矫枉过正,因为我只有一个声音、一个预期的音频模式和需要识别的非常有限的字典。我可以访问我需要在消息中搜索的十种声音(语音数字)中的每一种。是否有一种非VR方法可以在音频文件中查找声音(如有必要,我可以将MP3转换为另一种格式)。更新

java - 如何将输出语音存储到 freetts 中的音频文件

我正在尝试将freetts用于一个简单的java应用程序,但我遇到了一个问题,谁能告诉我如何将从文本转换为语音的输出语音保存到程序中的wave文件中。我想通过代码来完成。这是随示例提供的示例helloworld应用程序/***Copyright2003SunMicrosystems,Inc.**Seethefile"license.terms"forinformationonusageand*redistributionofthisfile,andforaDISCLAIMEROFALL*WARRANTIES.*/importcom.sun.speech.freetts.FreeTTS;

java - 盲人输入电子邮件和密码的可能方法

我正在使用java为视障人士创建电子邮件应用程序,但在输入电子邮件和密码时遇到问题。整个应用程序都是基于语音的,我正在使用谷歌语音API将语音转换为文本。我一直试图让用户一次输入一个字符的用户名/密码,但问题是谷歌语音无法正确识别字符。如果有任何其他可能的方式让盲人用户输入用户名/密码或任何其他可能的方式通过语音识别单个字符也会有所帮助,我会很高兴。更多信息:我正在尝试登录谷歌,因此我面临的问题是输入用户名/密码。 最佳答案 只有0-9的基于pin的密码是否适合这种情况?易于识别(仅十个字符),易于区分正常语音和密码。您甚至可以为错

【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition(一)

这里写目录标题概述研究内容Abstract第一段(介绍本文算法大致结构与优点)1.Introduction介绍第一段(介绍视觉位置识别的重要性)第二段(VPR的两种常见方法,本文方法结合了两种方法)第三段(本文贡献)第四段(为证明本文方法优越性,进行的测试以及比较)2.RelatedWork相关工作第一段(介绍早期与深度学习的全局图像描述符)第二段(介绍局部关键点描述符)第三段(局部描述符可以进一步改进)第四段(列举不在VPR背景下的局部区域描述符)第五段(列举在VPR背景下的局部区域描述符)第六段(现有的多尺度方法存在缺陷,本文方法更好)3.Methodology方法第一段(介绍本文方法)3