网络空间安全学院院讯(通讯员:王新雨 郭浩宇 刘腾)近日,神经网络领域国际学术会议2025 International Joint Conference on Neural Networks(IJCNN)、人工智能领域国际学术会议2025 International Conference on Intelligent Computing(ICIC)接收了我院学术论文“DyFusion-YOLO: An Enhanced Model for Small Object Detection in Aerial Imagery”、“FSDA-YOLO: Frequency-Aware Multi-Scale Fusion for Small Object Detection”和“Video Summarization Algorithm Based on Multimodal Multiscale Temporal Conjugate Position Coding”。论文以曲阜师范大学为第一完成单位,论文第一作者分别为研究生王新雨(2023级)、郭浩宇(2023级)、刘腾(2022级),通讯作者为王玉德副教授。IJCNN和ICIC均为中国计算机学会(CCF)推荐的C类国际学术会议。
(1)FSDA-YOLO: Frequency-Aware Multi-Scale Fusion for Small Object Detection

论文针对遥感图像中小目标检测易受边缘模糊与语义噪声干扰的问题,提出了一种融合频域和空域特征的检测算法FSDA-YOLO。算法在YOLOv11s架构基础上,构建双分支网络实现高低频特征解耦,结合谱注意力机制和多粒度特征金字塔,有效提升检测性能。
(2)DyFusion-YOLO: An Enhanced Model for Small Object Detection in Aerial Imagery

针对航拍图像存在的背景复杂、大小不一导致的漏检和误检问题,论文构建了一种检测模型DyFusion-YOLO。引入动态蛇形卷积优化C2f模块,动态调整内核的采样位置以适应物体的几何形状,结合了空间金字塔池化和跨阶段多跳连接机制,提高了多尺度特征融合和上下文信息捕捉能力。
(3)Video Summarization Algorithm Based on Multimodal Multiscale Temporal Conjugate Position Coding

针对DSNet模型在处理视频片段生成视频镜头时,存在时间信息缺失、多模态信息融合不足及多尺度特征捕获能力差的问题,提出并构建了基于多模态多尺度时序共轭位置编码的视频摘要生成算法。在多头注意力机制中嵌入时序共轭位置编码,在视频分段中引入多尺度特征金字塔算法,有效提高了视频摘要生成算法的准确性,为视频摘要技术的实现提供理论支持。
上述研究工作得到“视频流中目标检测与语义描述系统构建”项目、山东省研究生联合培养基地项目的资助支持。