- 收藏
- 加入书签
基于多模态大模型与改进YOLO 的视频实时目标检测与行为分析
摘要:目前正处于数字化的时代,大量的视频数据增长飞速,在各种各样的场景下挖掘出有用的信息是目前的一个热点,视频实时目标检测和行为分析就是一种能针对图像中的目标物体进行自动提取、并对其行为做出判断的技术,也是促使各行业智能发展的手段之一。此外,在视频分析过程中,以往人们对 YOLO 算法较为熟悉,在实际运用中具有了很好的效果,但是由于其算法的缺陷,所以在实际运用过程中还有很大的提升空间,对传统Yolo 算法进行适当的修改具有十分重要的意义。
关键词:多模态大模型;改进YOLO ;视频实施目标检测
引言
多模态大模型是一个可以综合各种数据模型的大模型,数据模态比如图片、文字、音视频等等,都是人类接受外界信息的主要方式,在现实中多数时候信息都会涉及到不同形式,用多模态大模型把数据多源融合起来,更能充分合理的描述复杂信息。近几年来,因为人工智能技术的突飞猛进,一些优秀的多模态大模型也呈现出来,在一些领域也起到重要作用。
一、多模态大模型与改进YOLO 融合策略
(一)整体架构分析
采集模块从各视频源获得视频数据,视频源包括摄像头、视频文件等;采集到的视频数据以视频流的形式送入系统内,在此之后开始进行后续的处理。
YOLO 检测模块是系统的核心目标检测部分,根据改进后的YOLO 算法实现对视频流的实时处理。改进后的 YOLO 算法对网络结构、检测速度以及精度等各方面均有所提高,能够适应视频的实时识别需求。对所提算法的实验结果显示:YOLO 检测模块能很快检出视频中的各种目标并给出检测结果(检测到目标的类别、位置及置信度等)。
多模态大模型处理模块是整个系统的智能分析核心,负责接受YOLO 检测模块输出的检测结果,并将其他模态信息,即视频图像、视频音频以及文本加入其中,再通过结合多模态的信息进行综合分析。多模态大模型拥有语义理解和推理能力,可以通过多模态大模型来实现告警的自动处置,弥补 YOLO 检测算法的虚警问题;还可以通过间隔抽帧检测的结果,发现更多视频中存在的信息点,获取更多视频信息的内容,以达到对视频信息更加全面的理解。
结果输出模块把经过多模态大模型计算出的内容汇总并呈现给用户。通过这些内容,呈现出来的就是如视频分析报告、实时告警、目标行为分析结果等等信息,最终为用户提供清晰、直观的数据支持和决策参考。
(二)模块间协同工作机制
为了让模型适应视频实时识别的要求,需要在 YOLO 算法的基础上改进其网络结构,将轻量化的网络结构加入骨干网结构之中,其中可选 MobileNetV3 网络,采用新型倒残差结构与注意力机制,并减少网络参数量及计算复杂度,但在一定程度上保证网络能有较好的特征提取能力;通过引入深度可分离卷积,将传统的卷积分为深度卷积和逐点卷积两种卷积操作,从而大大降低计算量。在颈部部分改进了特征融合方式,将原有的 FPN 改进成了 BiFPN, 在此基础上加入双向连接方式来实现不同层次的连接信息传递,从而使网络能够更加有效的融合不同尺度特征,提升对多尺度目标检测能力。头部网络采用优化后的预测分支结构,将预测分支的数量由三个改为两个,并将卷积核的大小缩小到原来的 1/4 倍、个数缩减为原来的一半,在此基础上经过剪枝处理,进一步将网络的计算量降低,但同时能实现检测精度上升的效果。此外,在满足较高检测精度的同时,使检测速度也有显著的提升,满足了视频实时处理要求。以1920×1080 分辨率为背景对改进后 YOL0 算法的检测效果进行了验证,在此分辨率下的帧率由原来的 25 帧 /s 提高到 40 帧 /s, 且常见目标类别的检测精度都基本稳定保持在 85% 以上。
二、基于多模态大模型与改进 YOLO 的视频实时目标检测与行为分析
(一)自动驾驶场景
在自动驾驶场景中,应用多模态大模型和改进 YOLO 视频分析是有效的,利用自动驾驶汽车自带车身多个摄像头,在车身上各个位置安装摄像机,获得周边全部图像信息。再配以车辆上安装的激光雷达、毫米波雷达等对车辆周围的物体距离、速度等信息进行收集,并且把所有的信息都纳入到视频图象里面,使收集到的信息呈现出来,这种信息就是多模态信息。
(二)目标检测
为了保证实验的顺利开展,在该实验中搭建了较好的实验环境:在硬件上选择了 NVIDIARTX3090GPU, 它的运行速度快且拥有 24GB 的高速显存,对深度学习模型训练以及推理速度有着较高的要求 ;配合 IntelCorei9-12900K, 拥有 24 个核心和 32 线程,主频高达 3.2GHz, 最高睿频可达 5.2GHz, 让多任务运行更加轻松,保证了系统在运行过程中不会出现卡顿。同时搭配 64GBDDR54800MHz,内存更快更稳。与一般大小的 2TB 容量的内存相比,这套内存将给机器更多的缓存内存空间,让速度更快,在硬盘、SD 卡等存在设备断电的情况下,发生断电也会暂存数据以保证安全使用。为了更加快速地加载 / 存储大量的数据,例如:视频数据集、模型参数等。在这套系统之上,另外配备了三星 980Pro2TBNVMeSSD 作为存储设备。通过优化硬件的运转以及加载 / 存储速度,这套系统可以高效地完成相应的任务。
对于软件平台而言,在此选用的操作系统是 Ubuntu20.04LTS,它是一个被广泛应用在深度学习领域内的一种开源操作系统,在稳定性和兼容性上都表现良好,可以在实验过程中给运行程序提供比较好的运行环境。对于深度学习框架的选择我们选用的是PyTorch1.11.0,在基于 Python 语言开发中,PyTorch 开发适合于动态图的神经网络,由于在调试和开发过程中采用动态图更为方便,并且在分布式训练以及优化算法方面也表现优异,也可以支持多模态的大模型,并且能起到一定作用。除此之外,在完成从视频到实时视频目标检测及行为分析的过程中,需要完成视频的读取以及抽取等步骤,所以选用了 OpenCV4.5.5 图像处理以及计算机视觉相关的函数库来实现,这将有利于后期的工作开展。本实验使用的 Python相关库还有 NumPy、SciPy、Matplotlib 等。
(三)行为分析
时长 10 分钟,分辨率为 1920×1080 ,帧率为 30 帧 / 秒,检测到行人 50 人,车辆 10 辆,自行车 5 辆。行人主要位于视频的前半段,车辆和自行车分散在道路上。共出现 2 次异常情况分别是:一次是车辆出现突然变道,另一次是行人闯入行车道路。通过对多模态大模型生成的分析报告与视频内容比对,可以发现其行为分析报告中的行为分析与实际一致,能准确检测出视频中各种行为,并且针对一些异常情况做到了及时发现并预警。这是因为多模态大模型对语言的理解能力强,能结合视频中的图像、语音、文本等信息进行语义综合分析,进而对视频中的行为有更深层次的理解;判断行人的行为是否正常不仅要依据行人的动作和姿态,还要根据语音判断是否有发出异常声音,结合文本标注确定是否进入不能通过区域,才能够得出判断结果,这也说明多模态大模型在视频行为分析方面的准确性较高,能够作为视频行为分析在实际应用中的一个好帮手。
三、结束语
综上所述,研究基于多模态大模型与改进 YOLO 的视频实时目标检测与行为分析技术,不仅能够满足智能安防、自动驾驶等领域对视频分析技术的迫切需求,推动这些领域的智能化发展,还能够为多模态大模型和目标检测算法的研究提供新的思路和方法,具有重要的理论意义和实际应用价值。
参考文献:
[1] 孟师扬 . 面向多模态图像的深度目标检测方法研究 [D]. 南京邮电大学 ,2023.
[2] 张李辉 , 刘紫燕 . 结合 YOLOv8 和多模态特征融合的 3D目标检测算法 [J]. 国外电子测量技术 ,2024,43(12):91-98.
[3] 施政 , 毛力 , 孙俊 . 基于 YOLO 的多模态加权融合行人检测算法 [J]. 计算机工程 ,2021,47(8):234-242.
京公网安备 11011302003690号