此篇博客先对音频基础知识进行简要叙述,然后帮助读者入门 esp-sr SDK。
声音的本质是波在介质中的传播现象,声波的本质是一种波,是一种物理量。 两者不一样,声音是一种抽象的,是声波的传播现象,声波是物理量。

所谓采样就是只在时间轴上对信号进行数字化。
乐鑫AI语音采用的是 16 kHz 采样率,16 kHz 的采样频率的一半合好对应人类语音的常用频段上限约 8 kHz, 此外 44.1 kHz 采样率是另一种常用的采样率,44.1 kHz 的采样频率的一半对应人耳的可听声频率上限约 20 kHz。因为在同等时间长度内,采样率越高,数据量越大,所以:通常即时通讯类的音频会采用 16 kHz 甚至更低的采样率,以保证信号传输的及时性,但是也会对音频质量造成一定损失(比如声音发闷);而主打高质量音声的记录类音频资源会采用 44.1 kHz 甚至 48 kHz 的采样率,以更多的数据存储量为代价,保证重放信号的高保真度。

因此这部分主要包含以下三个参数:
量化是指在幅度轴上对信号进行数字化。如果用 16 比特位的二进制信号来表示一个采样,那么一个采样所表示的范围即为【-32768,32767】。
乐鑫 AI 语音采用的是 16 比特的量化。
通道数即声音的通道数目,常见的有单声道、双声道和立体声道。
单声道的声音只能使用一个扬声器发声,或者也可以处理成两个扬声器输出同一个声道的声音,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的,无法判断声源的具体位置。
双声道就是有两个声音通道,其原理是人们听到声音时可以根据左耳和右耳对声音相位差来判断声源的具体位置。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。
如:录制一段,时间为:1 s,采样率为 16000 HZ,采样大小为 16,通道数为 2 的音频,所占用的空间大小为 : 16000 * 16 * 2 * 1 s= 500 k
一套乐鑫 AFE 算法框架,可基于功能强大的 ESP32 和 ESP32-S3 SoC 进行声学前端处理,使用户获得高质量且稳定的音频数据,从而构建性能卓越且高性价比的智能语音产品。
声学回声消除算法通过自适应滤波的方法,消除使用麦克风输入音频时的回声。此算法适用于语音设备通过扬声器播放音频等场景。
算法最多支持双麦处理,能够有效的去除 mic 输入信号中的自身播放声音。从而可以在自身播放音乐的情况下进行很好的语音识别等应用。
盲源分离算法使用多个麦克风检测传入音频的方向,并强化某个方向的音频输入。此算法在噪音环境中提高了所需音频源的声音质量。
噪声抑制算法支持单通道音频信号处理,能够有效消除无用的非人声(如吸尘器或空调声),从而改善所需处理的音频信号。
乐鑫 AFE 的功能针对以下两种不同场景:
语音识别场景
语音通话场景
模型步骤:
音频输入
AEC 进行回声消除(消除自身的音频播报,这需要回采通道)
BSS/NS
VAD
WakeNet
唤醒词
对应的流程图如下:

模型步骤:
对应的流程图如下:

#define AFE_CONFIG_DEFAULT() { \
.aec_init = true, \ //AEC 算法是否使能
.se_init = true, \ //BSS/NS 算法是否使能
.vad_init = true, \ //VAD 是否使能 ( 仅可在语音识别场景中使用 )
.wakenet_init = true, \ //唤醒是否使能.
.voice_communication_init = false, \ //语音通话是否使能。与 wakenet_init 不能同时使能.
.voice_communication_agc_init = false, \ //语音通话中AGC是否使能
.voice_communication_agc_gain = 15, \ //AGC的增益值,单位为dB
.vad_mode = VAD_MODE_3, \ //VAD 检测的操作模式,越大越激进
.wakenet_model_name = NULL, \ //选择唤醒词模型
.wakenet_mode = DET_MODE_2CH_90, \ //唤醒的模式。对应为多少通道的唤醒,根据mic通道的数量选择
.afe_mode = SR_MODE_LOW_COST, \ //SR_MODE_LOW_COST: 量化版本,占用资源较少。
//SR_MODE_HIGH_PERF: 非量化版本,占用资源较多。
.afe_perferred_core = 0, \ //AFE 内部 BSS/NS/MISO 算法,运行在哪个 CPU 核
.afe_perferred_priority = 5, \ //AFE 内部 BSS/NS/MISO 算法,运行的task优先级。
.afe_ringbuf_size = 50, \ //内部 ringbuf 大小的配置
.memory_alloc_mode = AFE_MEMORY_ALLOC_MORE_PSRAM, \ //绝大部分从外部psram分配
.agc_mode = AFE_MN_PEAK_AGC_MODE_2, \ //线性放大喂给后续multinet的音频,峰值处为 -4dB。
.pcm_config.total_ch_num = 3, \ //total_ch_num = mic_num + ref_num
.pcm_config.mic_num = 2, \ //音频的麦克风通道数。目前仅支持配置为 1 或 2。
.pcm_config.ref_num = 1, \ //音频的参考回路通道数,目前仅支持配置为 0 或 1。
}
wn9_hiesp(最新的 wn9 都是默认 8 bit 量化): 版本 9 ,唤醒词是 hi,esp

mn4q8_cn : 版本 4 ,8 bit 量化,中文命令词

中文命令词直接添加拼音:打开空调(da kai kong tiao),也支持多句话支持同一个 COMMAND ID , 最大风速/最高风速
添加方言命令词:添加对应的发音

英文命令词需要添加对应的音素,通过 python 脚本生成

esp_mn_commands_add(i, token);
通过调用 api 实现动态添加命令词。
仅消耗约 20% CPU, 30 KB SRAM 和 500 KB PSRAM
麦克类型:全向型 MEMS ⻨克⻛。
灵敏度:
信噪比
信噪⽐不低于 62 dB,推荐 >64 dB :
信噪比越高声音越保真
⻨克孔孔径或宽度推荐⼤于 1 mm,拾⾳管道尽量短,腔体尽可能⼩,保证⻨克和结构组件配合的谐振频 率在 9 KHz 以上。
拾⾳孔深度和直径⽐⼩于 2:1,壳体厚度推荐1 mm,如果壳体过厚,需增⼤开孔⾯积。
⻨克孔上需通过防尘⽹进⾏保护。
⻨克⻛与设备外壳之间必须加硅胶套或泡棉等进⾏密封和防震,需进⾏过盈配合设计,以保证⻨克的密封性。
⻨克孔不能被遮挡,底部拾⾳的⻨克孔需结构上增加凸起,避免⻨克孔被桌⾯等遮挡。
⻨克需远离喇叭等会产⽣噪⾳或振动的物体摆放,且与喇叭⾳腔之间通过橡胶垫等隔离缓冲。
#include "esp_wn_iface.h" //唤醒词模型的一系列API
#include "esp_wn_models.h" //根据输入的模型名称得到具体的唤醒词模型
#include "esp_afe_sr_iface.h" //语音识别的音频前端算法的一系列API
#include "esp_afe_sr_models.h" //语音前端模型的声明
#include "esp_mn_iface.h" //命令词模型的一系列API
#include "esp_mn_models.h" //命令词模型的声明
#include "esp_board_init.h" //开发板硬件初始化
#include "driver/i2s.h" //i2s 驱动
#include "speech_commands_action.h" //根据识别到的 command 进行语音播报/闪烁 LED
#include "model_path.h" //从 spiffs 文件管理中返回模型路径等 API
void app_main()
{
models = esp_srmodel_init("model"); //spiffs 中的所有可用模型或 model 默认是从`flash`读
ESP_ERROR_CHECK(esp_board_init(AUDIO_HAL_08K_SAMPLES, 1, 16)); //Special config for dev board
// ESP_ERROR_CHECK(esp_sdcard_init("/sdcard", 10)); //初始化 SD card
#if defined CONFIG_ESP32_KORVO_V1_1_BOARD
led_init(); //LED 初始化
#endif
afe_handle = &ESP_AFE_SR_HANDLE;
afe_config_t afe_config = AFE_CONFIG_DEFAULT(); //音频前端的配置项
afe_config.wakenet_model_name = esp_srmodel_filter(models, ESP_WN_PREFIX, NULL);; //从有所可用的模型中找到唤醒词模型的名字
#if defined CONFIG_ESP32_S3_BOX_BOARD || defined CONFIG_ESP32_S3_EYE_BOARD
afe_config.aec_init = false;
#endif
//afe_config.aec_init = false; //关闭 AEC
//afe_config.se_init = false; //关闭 SE
//afe_config.vad_init = false; //关闭VAD
//afe_config.pcm_config.total_ch_num = 2; //设置为单麦单回采
//afe_config.pcm_config.mic_num = 1; //麦克风通道一
esp_afe_sr_data_t *afe_data = afe_handle->create_from_config(&afe_config);
xTaskCreatePinnedToCore(&feed_Task, "feed", 4 * 1024, (void*)afe_data, 5, NULL, 0); //feed 从 i2s 拿到音频数据
xTaskCreatePinnedToCore(&detect_Task, "detect", 8 * 1024, (void*)afe_data, 5, NULL, 1); //将音频数据喂给模型获取检测结果
#if defined CONFIG_ESP32_S3_KORVO_1_V4_0_BOARD || defined CONFIG_ESP32_KORVO_V1_1_BOARD
xTaskCreatePinnedToCore(&led_Task, "led", 2 * 1024, NULL, 5, NULL, 0); //开启LED
#endif
#if defined CONFIG_ESP32_S3_KORVO_1_V4_0_BOARD || CONFIG_ESP32_S3_KORVO_2_V3_0_BOARD || CONFIG_ESP32_KORVO_V1_1_BOARD
xTaskCreatePinnedToCore(&play_music, "play", 2 * 1024, NULL, 5, NULL, 1); //开启语音播报
#endif
}
void feed_Task(void *arg)
{
esp_afe_sr_data_t *afe_data = arg;
int audio_chunksize = afe_handle->get_feed_chunksize(afe_data);
int nch = afe_handle->get_channel_num(afe_data);
int feed_channel = esp_get_feed_channel(); //3;
int16_t *i2s_buff = malloc(audio_chunksize * sizeof(int16_t) * feed_channel);
assert(i2s_buff);
size_t bytes_read;
while (1) {
//第一种方式
//audio_chunksize:音频时间 512->32ms 256->16ms
//int16_t:16位量化
//feed_channel:两麦克风通道数据一回采通道数据
esp_get_feed_data(i2s_buff, audio_chunksize * sizeof(int16_t) * feed_channel);
//第二种方式
i2s_read(I2S_NUM_1, i2s_buff, audio_chunksize * sizeof(int16_t) * feed_channel, &bytes_read, portMAX_DELAY);
afe_handle->feed(afe_data, i2s_buff);
}
afe_handle->destroy(afe_data);
vTaskDelete(NULL);
}
void detect_Task(void *arg)
{
esp_afe_sr_data_t *afe_data = arg;
int afe_chunksize = afe_handle->get_fetch_chunksize(afe_data);
int nch = afe_handle->get_channel_num(afe_data);
char *mn_name = esp_srmodel_filter(models, ESP_MN_PREFIX, ESP_MN_CHINESE); //从模型队列中获取命令词模型名字
printf("multinet:%s\n", mn_name);
esp_mn_iface_t *multinet = esp_mn_handle_from_name(mn_name); //获取命令词模型
model_iface_data_t *model_data = multinet->create(mn_name, 5760); //创建
esp_mn_commands_update_from_sdkconfig(multinet, model_data); // Add speech commands from sdkconfig
int mu_chunksize = multinet->get_samp_chunksize(model_data);
int chunk_num = multinet->get_samp_chunknum(model_data);
assert(mu_chunksize == afe_chunksize);
printf("------------detect start------------\n");
// FILE *fp = fopen("/sdcard/out1", "w");
// if (fp == NULL) printf("can not open file\n");
while (1) {
afe_fetch_result_t* res = afe_handle->fetch(afe_data); //获得AEF的处理结果
if (!res || res->ret_value == ESP_FAIL) {
printf("fetch error!\n");
break;
}
#if CONFIG_IDF_TARGET_ESP32
if (res->wakeup_state == WAKENET_DETECTED) {
printf("wakeword detected\n");
play_voice = -1;
detect_flag = 1;
afe_handle->disable_wakenet(afe_data);
printf("-----------listening-----------\n");
}
#elif CONFIG_IDF_TARGET_ESP32S3
if (res->wakeup_state == WAKENET_DETECTED) {
printf("WAKEWORD DETECTED\n"); //如果被唤醒将唤醒标志置位True
} else if (res->wakeup_state == WAKENET_CHANNEL_VERIFIED) {
play_voice = -1;
detect_flag = 1;
printf("AFE_FETCH_CHANNEL_VERIFIED, channel index: %d\n", res->trigger_channel_id);
}
#endif
if (detect_flag == 1) {
esp_mn_state_t mn_state = multinet->detect(model_data, res->data); //将AFE处理后的音频数据给命令词模型
if (mn_state == ESP_MN_STATE_DETECTING) {
continue;
}
if (mn_state == ESP_MN_STATE_DETECTED) {
esp_mn_results_t *mn_result = multinet->get_results(model_data); //得到结果
for (int i = 0; i < mn_result->num; i++) {
printf("TOP %d, command_id: %d, phrase_id: %d, prob: %f\n",
i+1, mn_result->command_id[i], mn_result->phrase_id[i], mn_result->prob[i]);
}
printf("\n-----------listening-----------\n");
}
if (mn_state == ESP_MN_STATE_TIMEOUT) { //超时关闭
afe_handle->enable_wakenet(afe_data);
detect_flag = 0;
printf("\n-----------awaits to be waken up-----------\n");
continue;
}
}
}
afe_handle->destroy(afe_data);
vTaskDelete(NULL);
}
我正在尝试测试是否存在表单。我是Rails新手。我的new.html.erb_spec.rb文件的内容是:require'spec_helper'describe"messages/new.html.erb"doit"shouldrendertheform"dorender'/messages/new.html.erb'reponse.shouldhave_form_putting_to(@message)with_submit_buttonendendView本身,new.html.erb,有代码:当我运行rspec时,它失败了:1)messages/new.html.erbshou
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为
为了将Cucumber用于命令行脚本,我按照提供的说明安装了arubagem。它在我的Gemfile中,我可以验证是否安装了正确的版本并且我已经包含了require'aruba/cucumber'在'features/env.rb'中为了确保它能正常工作,我写了以下场景:@announceScenario:Testingcucumber/arubaGivenablankslateThentheoutputfrom"ls-la"shouldcontain"drw"假设事情应该失败。它确实失败了,但失败的原因是错误的:@announceScenario:Testingcucumber/ar
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
我的瘦服务器配置了nginx,我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例,但找不到好的解决方案。有没有人能做到这一点? 最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器,例如server{listen80;server
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',
我已经从我的命令行中获得了一切,所以我可以运行rubymyfile并且它可以正常工作。但是当我尝试从sublime中运行它时,我得到了undefinedmethod`require_relative'formain:Object有人知道我的sublime设置中缺少什么吗?我正在使用OSX并安装了rvm。 最佳答案 或者,您可以只使用“require”,它应该可以正常工作。我认为“require_relative”仅适用于ruby1.9+ 关于ruby-主要:Objectwhenrun
我花了三天的时间用头撞墙,试图弄清楚为什么简单的“rake”不能通过我的规范文件。如果您遇到这种情况:任何文件夹路径中都不要有空格!。严重地。事实上,从现在开始,您命名的任何内容都没有空格。这是我的控制台输出:(在/Users/*****/Desktop/LearningRuby/learn_ruby)$rake/Users/*******/Desktop/LearningRuby/learn_ruby/00_hello/hello_spec.rb:116:in`require':cannotloadsuchfile--hello(LoadError) 最佳