草庐IT

Android:是否可以重新定位语音识别弹窗?

我刚刚完成我的语音识别应用,它运行良好。通过语音向用户提出问题和答案。一个令人烦恼的事情是,语音识别窗口会在非常靠近手机屏幕顶部的位置弹出,如果它稍微低一点,这样就不会遮挡问题的文本,那就太好了。是否可以通过编程方式执行此操作?===附加信息:谢谢,DroidBee。我正在使用以下代码调用语音识别引擎:privatevoidstartVoiceRecognitionActivity(){Intentintent=newIntent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(RecognizerIntent.EXT

android - Android 上的关键字激活语音识别

是否可以在您自己的应用程序中使用“googlenow”这个很酷的语音激活功能?所以我想要的是用户不必通过按下按钮或其他东西来触发激活。就像那样。我宁愿通过关键字激活自动语音识别。例如:当打开“googlenow”时,您只需说:“google”。在该命令之后,系统正在监听实际输入。这可以通过使用androidAPI实现吗?或者有没有提供这种行为的开源库?我知道这对于“睁开耳朵”是可能的,但不幸的是,睁开耳朵不适用于android。 最佳答案 您必须将语音识别作为一项服务而不是一项Activity来运行。查看此git以获取有关如何执行此

android - 如何使用按钮激活语音到文本?

我想实现一个按钮,单击该按钮会激活android的语音到文本翻译器,就像android键盘提供的那样。具体来说,我想要一个按钮,让应用程序实时转录用户所说的内容,并将其逐字(实时)记录在editText框中。执行此操作的最佳方法是什么?谢谢 最佳答案 如果您尚未检查Api演示中的语音识别示例,您应该检查一下。它应该给你一个良好的开端。演示在/android-sdk/samples/...文件夹中可用。如果您还没有安装它们,可以通过以下方式安装howtoinstallandroidapidemoappintomyphone.还有以下(

android - 如何在 Android 中区分双卡的数据/语音使用

我正在开发应用程序来计算用户Android手机的数据和语音使用情况。我面临的问题是根据双卡手机中的号码区分这些数据。(例如,如果我从SIM1调用电话,则语音使用应映射到相应的号码)我在SO中搜索过这种代码fragment,但没有成功。这在Android中是否可以通过任何方式以编程方式实现?如果是,那么最好的解决方案是什么。 最佳答案 目前不支持dualslim。这意味着-没有任何可用的官方公共(public)API。Issue14799:DualSIMcardssupporting 关于

java - SearchView 语音监听器

我想知道是否可以在我的searchView上设置语音监听器,例如建议监听器:http://developer.android.com/reference/android/support/v7/widget/SearchView.OnSuggestionListener.html我想覆盖默认行为。我不想发起另一项Activity。我只想将录制的声音作为字符串获取并使用它。 最佳答案 我阅读了您的要求,但您为什么不想使用Activity?以防万一这对您有帮助,如果您到现在还没有,应该看看这些:安卓开发者:http://developer

UE5+数字人+文心一言实现语音问答

   此项目主要包含三个功能(讯飞语音识别、百度文心一言问答、metahumanSDK文字转语音合成口型),所有功能均使用蓝图实现,不含C++代码。项目所需插件;Http通信插件;VaRest,在UE5中用于与文心一言建立连接,在Epic虚幻商城可免费下载。文字转语音及合成口型动画插件;MetahumanSDK,在Epic虚幻商城可免费下载。语音识别插件;XunFeiSpeechToText,插件连接;🍞正在为您运送作品详情(该插件非本人所著,如需使用,需自行购买)以下是该项目实现的全流程,仅供学习参考。一、前期准备1.导入人物模型;打开QuixelBridge插件,如果没有这个插件就去商城下

android - 如何使用 Androids 的语音与音频示例文件一起发短信

我能够运行一个示例项目,该项目使用Android语音通过以下代码发送文本:privatevoidstartVoiceRecognitionActivity(){Intentintent=newIntent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);intent.putExtra(RecognizerIntent.EXTRA_PROMPT,"Voicere

PyTorch语音识别的理论基础——MFCC

在语音识别研究领域,音频特征的选择至关重要。本书大部分内容中都在使用一种非常成功的音频特征—梅尔频率倒谱系数(Mel-FrequencyCepstrumCoefficient,MFCC)。MFCC特征的成功很大程度上得益于心理声学的研究成果,它对人的听觉机理进行了建模。研究发现,音频信号从时域信号转换为频域信号之后,可以得到各种频率分量的能量分布。心理声学的研究结果表明,人耳对于低频信号更加敏感,对于高频信号比较不敏感,具体是什么关系?心理声学研究结果表明,在低频部分是一种线性关系,但是随着频率的升高,人耳对于频率的敏感程度呈现对数增长的态势。这意味着只从各个频率能量的分布来设计符合人的听觉习

​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

内容来源:@xiaohugggDistil-Whisper:比Whisper快6倍,体积小50%的语音识别模型​该模型是由HuggingFace团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率(WER)不超过1%。它还可以作为Whisper的助手模型用于推测性解码,速度提高了2倍。主要优点:速度-Distil-Whisper的推理速度是Whisper的6倍。尺寸-模型大小减少了49%,更适合资源有限的设备。准确性-词错误率(WER)与Whisper相比只有1%的差距。抗噪声-在嘈杂环境下仍能保持较高的识别准确性。减少

Python常用视频编辑操作——读取与保存视频、更改帧数、拼接视频、视频语音合并、视频与图像互转等

1.更改视频帧数降低视频帧数,简单的操作只能降低视频帧数,如果要增加视频帧数,那就要使用深度学习进行插帧处理:importcv2frommoviepy.editorimport*defchange_fps(inpt_path,output_path,fps):#加载视频video=VideoFileClip(inpt_path)#将帧率降低为15帧/秒new_video=video.set_fps(fps)#保存为新的文件new_video.write_videofile(output_path,codec="libx264")defchange_fps_dir(video_dir,fps):