如何使YOLOv5在检测到目标后进行声音告警提示？

Mr_LanGX 2023-05-16 原文

说在前面的话

导师有一个异常行为检测的小任务（吸烟行为检测），给我让我和师弟一起去完成。本身以为在YOLOv5的detect.py检测脚本中加入语音提示很简单，但是其中的过程却是一言难尽。
这也是查阅了很多资料，尝试过了各种大佬分享的经验，集百家之长完成了这个任务，感谢CSDN中各位有开源精神的大佬的代码分享。

一、语音生成脚本

首先先安装好这个库：pyttsx3
在PyCharm这个软件中打开命令行（或叫：终端），激活自己所需的虚拟环境，
然后输入指令： pip install pyttsx3
等待安装完成即可。
语音生成、合成脚本如下：

# 导入pyttsx3库
import pyttsx3

class Voice():
      def __init__(self):
            self.engine = pyttsx3.init()  # 创建engine并初始化
            self.engine.setProperty('rate', 150)
            self.engine.setProperty('volume', 1.0)  # 在0到1之间重设音量

      def synthesis(self, text, filename):
            self.engine.save_to_file(text, filename)
            self.engine.runAndWait()

      def play(self, filename):
            self.engine.say(filename)
            self.engine.runAndWait()
            self.engine.stop()


if __name__ == "__main__":
      speech = Voice()
      speech.synthesis('注意，请勿吸烟！', '请勿吸烟.mp3') #此句是在当前文件目录下生成mp3文件，
                                                         #语音内容就是：注意，请勿吸烟！
      speech.play('注意，请勿吸烟') #此句是直接合成语音并播放

二、本地语音播放软件

首先选取FFmpeg播放器来播放自己录制好的mp3文件，FFmpeg拥有LGPL/GPL许可和前沿音/视频编解码库libavcodec，使用方便，功能强大。虽然FFmpeg（Fast Forward mpeg视频编码标准）在Linux系统开发并且在Linux系统使用较多，但在windows系统下也同样可以用来录制、编解码、转换、流化音视频等。FFmpeg在各种各样的构建环境、机器架构和配置下编译、运行，支持Linux、Mac OS X、Microsoft Windows、bsd、Solaris等。

FFmpeg具体下载地址：https://github.com/BtbN/FFmpeg-Builds/releases，如下图：

下载ffmpeg-N-104947-g631e31773b-win64-gpl.zip文件

解压fmpeg-N-104947-g631e31773b-win64-gpl.zip文件，里面有这些：

ffmpeg.exe：音视频转码、转换器。
ffplay.exe：简单的音视频播放器。
ffprobe.exe：简单的多媒体码流分析器。

三、YOLOv5的detect.py程序改进

在detect.py代码中修改！！

仔细找程序，睁大眼睛
第一步：
找到光标定位到的这里

插入如下代码

value = det[:, 4].max().item()  # 解决的是看到视频就报警 每取四个值 找到最大 大于0.5才播放告警语音
if value > 0.5:  # 大于0.5播放警示语音
    count += 1  # count等于一个滤波 小延时 防止误报 累计5个数之后再报
    if count > 5:
        count = 0
        if time.time() - tplay > 1.8:  # 防止声音叠加 1.8s播放完再继续
           import os  #
           os.system(
                     'start /b D:/Teacher_project/yolov5-v5s-smoke/ffmpeg/bin/ffplay.exe -autoexit -nodisp D:/Teacher_project/yolov5-v5s-smoke/abc.mp3')  # 音乐播放
                        #参数含义： start /b 后台启动    ffplay音乐播放软件的位置      
                      #-autoexit 播放完毕自动退出    -nodisp不显示窗口     mp3语音的位置路径
           tplay = time.time()  # 当前系统时钟
det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round()

效果如下：

第二步：
再找到光标定位到的这里：

加入如下代码：
t0 = time.time()
count = 0
tplay = 0

效果如下：

到这里就改完了，运行detect.py脚本就行。

四、代码思想解释

这是集百家之长所得。
加入后台语音播放的记录：（总体原理如下）
第一步计算每四帧图像的最大置信度是为了解决人眼还没看到烟时，计算机已经识别到其中一帧大于阈值的问题，选取四帧计算最大值增加了可靠性。
计算后的置信度大于阈值进入下一步，否则返回上一步继续等待，阈值设定为0.5。
count计数滤波相当于设置了一个滤波器，用较短的延时滤除掉一些小毛刺，减少误报的几率，提升准确性。
使用time.time函数计算时间差是为了完整的播放语音，防止吸烟出现时语音叠加;时间差大于设定值时播放对应语音，否则返回上一步继续等待，设定值设置为3.0s。这个值取决于由语音的时长;最后播放对应语音时，首先使用‘start /b’开始播放语音，可以设置为后台启动，解决了播放语音时视频卡帧的问题，同时在后缀加上‘-autoexit’，播放完语音后自动退出，解决了语音播放完之后，窗口卡顿的问题，再加上‘-nodisp’，可以不显示语音播放窗口。

五、效果展示

背景音有点嘈杂，大家凑合看一下吧。

素材

六、写在后面

①之前也尝试过采用多线程技术来解决这个问题，但是奈何我代码水平太差，无法将detect.py中的代码改成我需要的样子，所以放弃这个想法了。
②其实文章中的做法不是多线程，是进行的后台调用，但是最终达到的效果是差不多的。

七、最后的最后

为自己推销一下。这里还有标注好的吸烟数据集、接打电话手机数据集、电梯按键数据集，训练好的YOLOv5检测权重，YOLOv5的改进好的方案（如注意力机制、结构改进等），有需要的同学私信滴滴我哦，绝对物美价廉。

后进 YOLOv5 span class token 深度学习目标检测 python

有关如何使YOLOv5在检测到目标后进行声音告警提示？的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息？最佳答案在Rails3中，update_all不返回任何有意义的信息，除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
ruby - 如何每月在 Heroku 运行一次 Scheduler 插件？ - 2
在选择我想要运行操作的频率时，唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。最佳答案这不是一个优雅的解决方案，但您可以安排它每天运行，并在实际开始工作之前检查日期是否为当月的第一天。关于ruby-如何每月在Heroku运行一次Scheduler插件？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/8692687/
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby - 如何使用文字标量样式在 YAML 中转储字符串？ - 2
我有一大串格式化数据(例如JSON)，我想使用Psychinruby同时保留格式转储到YAML。基本上，我希望JSON使用literalstyle出现在YAML中:---json:|{"page":1,"results":["item","another"],"total_pages":0}但是，当我使用YAML.dump时，它不使用文字样式。我得到这样的东西:---json:!"{\n\"page\":1,\n\"results\":[\n\"item\",\"another\"\n],\n\"total_pages\":0\n}\n"我如何告诉Psych以想要的样式转储标量？解