利用Python在Jetson上搭建多摄像头实时视频处理流程

扫地的小何尚 2024-05-19 原文

在Jetson上搭建多摄像头实时视频处理流程

多摄像头应用越来越流行；它们对于启用自主机器人、智能视频分析 (IVA) 和 AR/VR 应用程序至关重要。无论具体的用例如何，都必须始终执行一些常见任务：

捕获
预处理
编码
显示

在许多情况下，您还希望在摄像头流上部署 DNN 并在检测上运行自定义逻辑。下图显示了应用程序的流程。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HRy8y0D5-1655173911777)(pipeline-flow.png)]

在这篇文章中，我将展示如何在 NVIDIA Jetson 平台上高效地实现这些常见任务。具体来说，我介绍了 jetmulticam，这是一个易于使用的 Python 包，用于创建多摄像头任务。我在带有环绕摄像头系统的机器人上演示了一个特定用例。最后，我添加了基于 DNN 对象检测的自定义逻辑（人关注），以获得以下视频所示的结果：

jetson-multicamera-pipeline

多摄像头硬件

选择相机时需要考虑许多参数：分辨率、帧速率、光学、全局快门、接口、像素大小等。

在这个特定的多相机设置中，您使用以下硬件：

NVIDIA Jetson Xavier NX 模块
Leopard Imaging 提供的支持 GMSL2 的载板
3 × Leopard Imaging 的 IMX185 GMSL2 相机

每个 IMX185 摄像机的视野约为 90°。将它们相互正交安装，总 FOV 为 270°，如下图所示。

这些相机使用 GMSL 接口，它提供了很大的灵活性，可以将相机放置在距离 Jetson 模块几米远的地方。在这种情况下，您可以将相机抬高约 0.5m 以获得更大的垂直 FOV。

Jetmulticam

首先，在您的 Jetson 开发板上下载并安装 NVIDIA Jetpack SDK。然后，安装 jetmulticam 包：

$ git clone https://github.com/NVIDIA-AI-IOT/jetson-multicamera-pipelines.git
$ cd jetson-multicamera-pipelines
$ bash scripts/install_dependencies.sh
$ pip3 install Cython
$ pip3 install .

基本的多摄像头pipeline

设置完成后，您可以使用 CameraPipeline 类创建基本pipeline。使用初始化参数传递要包含在pipeline中的摄像机列表。在以下示例中，元素 [0, 1, 2] 对应于设备节点 /dev/video0、/dev/video1 和 /dev/video2。

from jetmulticam import CameraPipeline
p = CameraPipeline([0, 1, 2])

就是这样——pipeline已经初始化并启动了。您现在可以从pipeline中的每个摄像头读取图像并将它们作为 numpy 数组访问。

img0 = p.read(0) # img0 is a np.array
img1 = p.read(1)
img2 = p.read(2)

通常，在循环中从相机中读取是很方便的，如下面的代码示例所示。 pipeline从主线程异步运行，读取总是获取最新的缓冲区。

while True:
    img0 = p.read(0)
    print(img0.shape) # >> (1920, 1080, 3)
    time.sleep(1/10)

更复杂的 AI pipeline

现在您可以构建更复杂的pipeline。这一次，使用 CameraPipelineDNN 类来组成更复杂的pipeline，以及来自 NGC 目录的两个预训练模型：PeopleNet 和 DashCamNet。

import time
from jetmulticam import CameraPipelineDNN
from jetmulticam.models import PeopleNet, DashCamNet

if __name__ == "__main__":

    pipeline = CameraPipelineDNN(
        cameras=[2, 5, 8],
        models=[
            PeopleNet.DLA1,
            DashCamNet.DLA0,
            # PeopleNet.GPU
        ],
        save_video=True,
        save_video_folder="/home/nx/logs/videos",
        display=True,
    )

    while pipeline.running():
        arr = pipeline.images[0] # np.array with shape (1080, 1920, 3)
        dets = pipeline.detections[0] # Detections from the DNNs
        time.sleep(1/30)

这是pipeline初始化的细分：

相机
模型
硬件加速
保存视频
显示视频
主循环

相机

首先，与前面的示例类似，camera 参数是传感器列表。在这种情况下，您使用与设备节点关联的摄像头：

/dev/video2
/dev/video5
/dev/video8

cameras=[2, 5, 8]

模型

第二个参数 models 使您能够定义预训练模型以在pipeline中运行。

  models=[
           PeopleNet.DLA1,
           DashCamNet.DLA0,
           # PeopleNet.GPU
      ],

在这里，您从 NGC 部署两个预训练模型：

PeopleNet：一种能够识别人、脸和包的目标检测模型。
DashCamNet：能够识别四类对象的模型：汽车、人、路标和自行车。

有关详细信息，请参阅 NGC 中的模型卡。

硬件加速

这些模型使用 NVIDIA 深度学习加速器 (DLA) 实时运行。具体来说，您在 DLA0 (DLA Core 0) 上部署 PeopleNet，在 DLA1 上部署 DashCamNet。

在两个加速器之间分配模型有助于提高管道的总吞吐量。此外，DLA 比 GPU 更省电。因此，在最高时钟设置下，系统在满负载下仅消耗约 10W。最后，在这种配置中，Jetson GPU 仍然可以利用 Jetson NX 上可用的 384 个 CUDA 内核来加速更多任务。

以下代码示例显示了当前支持的模型/加速器组合的列表。

pipeline = CameraPipelineDNN(
    # ...
    models=[
        models.PeopleNet.DLA0,
        models.PeopleNet.DLA1,
        models.PeopleNet.GPU,
        models.DashCamNet.DLA0,
        models.DashCamNet.DLA1,
        models.DashCamNet.GPU
        ]
    # ...
)

保存视频

接下来的两个参数指定是否存储编码的视频并定义用于存储的文件夹。

save_video=True,
save_video_folder="/home/nx/logs/videos",

显示视频

作为最后的初始化步骤，配置pipeline以在屏幕上显示视频输出以进行调试。

display=True

主循环

最后，定义主循环。在运行时，图像在 pipeline.images 下，检测结果在 pipeline.detections 下。

while pipeline.running():
    arr = pipeline.images[0] # np.array with shape (1080, 1920, 3)
    dets = pipeline.detections[0] # Detections from the DNNs
    time.sleep(1/30)

以下代码示例显示了结果检测。对于每次检测，您都会得到一个包含以下内容的字典：

对象类
对象位置定义为像素坐标中的 [left, width, top, height]
检测置信度

>>> pipeline.detections[0]
[
    # ...
    {
        "class": "person",
        "position": [1092.72 93.68 248.01 106.38], # L-W-T-H
        "confidence": 0.91
    },
    #...
]

使用自定义逻辑扩展 AI Pipeline

作为最后一步，您可以扩展主循环以使用 DNN 输出构建自定义逻辑。具体来说，您使用摄像头的检测输出在机器人中实现基本的人员跟踪逻辑。源代码可在 NVIDIA-AI-IOT/jetson-multicamera-pipelines GitHub 存储库中找到。

要找到要跟随的人，请解析 pipeline.detections 输出。这个逻辑在 find_closest_human 函数中实现。
根据边界框在 dets2steer 中的位置计算机器人的转向角。
- 如果人在左侧图像中，则最大限度地向左转。
- 如果人在正确的图像中，则最大限度地向右转。
- 如果人在中心图像中，则按比例转动边界框中心的 X 坐标。

生成的视频将保存到 /home/nx/logs/videos，正如您在初始化期间定义的那样。

解决方案概述

下面简要介绍 jetmulticam 的工作原理。该包动态创建并启动一个 GStreamer 管道，其中包含您的应用程序所需的摄像头数量。下图显示了当按照人员跟踪示例进行配置时，底层 GStreamer 管道的外观。如您所见，系统中的所有关键操作（以绿色框表示）都受益于硬件加速。

首先，使用图上的 nvarguscamerasrc 元素使用多个 CSI 摄像机捕获视频。使用 nvvidconv 或 nvvideoconvert 重新调整每个单独的缓冲区并转换为 RGBA 格式。接下来，使用 DeepStream SDK 提供的组件对帧进行批处理。默认情况下，批量大小等于系统中的摄像机数量。

要部署 DNN 模型，请利用 nvinfer 元素。在演示中，我在两个不同的加速器 DLA 核心 1 和 DLA 核心 2 上部署了两个模型 PeopleNet 和 DashCamNet，两者都在 Jetson Xavier NX 上可用。但是，如果需要，可以将更多模型堆叠在一起。

在生成的边界框被 nvosd 元素覆盖后，您可以使用 nvoverlaysink 将它们显示在 HDMI 显示器上，并使用硬件加速的 H264 编码器对视频流进行编码。保存为 .mkv 文件。

Python 代码中可用的图像（例如 pipeline.images[0]）由注册在每个视频转换器元素上的回调函数或prob解析为 numpy 数组。同样，在最后一个 nvinfer 元素的 sinkpad 上注册了另一个回调函数，它将元数据解析为用户友好的检测列表。有关源代码或单个组件配置的更多信息，请参阅 create_pipeline 函数。

摄像头摄像 xff0c xff xff0 python 音视频 ar Jetson Deepstream

有关利用Python在Jetson上搭建多摄像头实时视频处理流程的更多相关文章

python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby - 如何指定 Rack 处理程序 - 2
Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时，rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack
Python 相当于 Perl/Ruby ||= - 2
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意，但是谷歌搜索||=并不是很有帮助；)Python中是否有与Ruby和Perl中的||=语句等效的语句？例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外，类似这样的东西的通用术语是什么？条件分配是我的第一个猜测，但Wikipediapage跟我想的不太一样。
java - 什么相当于 ruby 的 rack 或 python 的 Java wsgi？ - 2
什么是ruby的rack或python的Java的wsgi？还有一个路由库。最佳答案来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o
python - 如何读取 MIDI 文件、更改其乐器并将其写回？ - 2
我想解析一个已经存在的.mid文件，改变它的乐器，例如从“acousticgrandpiano”到“violin”，然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容，该乐器通过program_change或patch_change指令进行了更改，但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。最佳答案 MIDIpackage会为您完成此操作，但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成，每个音轨是十六个channel中任何一个上的
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
python ffmpeg 使用 pyav 转换一组图像到视频 - 2
2022/8/4更新支持加入水印水印必须包含透明图像，并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时，是将这组图像视为MJPG流。我需要转换一组PNG图像到视频，FFMPEG就不认了。pyav内置了ffmpeg库，不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p
Python 刷Leetcode题库，顺带学英语单词（31） - 2
ValidPalindromeGivenastring,determineifitisapalindrome,consideringonlyalphanumericcharactersandignoringcases. [#125]Example:"Aman,aplan,acanal:Panama"isapalindrome."raceacar"isnotapalindrome.Haveyouconsiderthatthestringmightbeempty?Thisisagoodquestiontoaskduringaninterview.Forthepurposeofthisproblem
python - 是否可以使用 Ruby 或 Python 禁用 anchor /引用来发出有效的 YAML？ - 2
是否可以在PyYAML或Ruby的Psych引擎中禁用创建anchor和引用(并有效地显式列出冗余数据)？也许我在网上搜索时遗漏了一些东西，但在Psych中似乎没有太多可用的选项，而且我也无法确定PyYAML是否允许这样做.基本原理是我必须序列化一些数据并将其以可读的形式传递给一个不是真正的技术同事进行手动验证。有些数据是多余的，但我需要以最明确的方式列出它们以提高可读性(anchor和引用是提高效率的好概念，但不是人类可读性)。Ruby和Python是我选择的工具，但如果有其他一些相当简单的方法来“展开”YAML文档，它可能就可以了。最佳答案