近日,信息工程学院智能信息处理与控制研究团队围绕人工智能、多模态学习和计算机视觉等方向的研究取得了一系列成果。
成果一:基于混合 GRU-Mamba 架构的抑郁症非侵入式客观评估机制
在抑郁症客观评估方面,团队针对传统临床访谈存在主观性强、耗时长的痛点,提出了一种基于面部动力学分析的非侵入式计算机视觉方案。该成果由金鸽、张迁等研究人员共同完成。研究将面部68个关键点的运动轨迹作为输入,并构建了混合时间建模骨干网络:利用双向GRU捕捉短期的微表情动态,同时发挥Mamba状态空间模型在处理长序列依赖方面的高效性,从而精准建模长期情感演变趋势。团队还通过跨时间注意力融合机制自适应整合了不同尺度特征。在真实临床数据集上的实验结果表明,该模型在受试者级分类中达到了87.1%的准确率。此外,该成果还首创了包含空间、时间、演化、交互和稳定性在内的五维可解释性框架,有效打破了深度学习的“黑盒”效应,显著增强了辅助临床决策的透明度与可靠性。相关论文“Decoding depression: A hybrid GRU–Mamba architecture with multi-dimensional interpretability framework for facial dynamics analysis”发表在学术期刊《Information Fusion》(中科院一区)上。

基于混合 GRU–Mamba 架构的抑郁症检测框架及多维可解释性分析示意图
成果二:面向3D医学图像分割的伪标签增强大模型框架
在3D医学图像分割领域,针对人工标注极其耗时导致临床样本量严重不足的行业瓶颈,团队基于3D医学分割基础大模型(如SAM-Med3D),提出了一种创新的伪标签增强分割框架(PESF)。该成果由金鸽、张迁、程勇等研究人员合作完成。团队利用Totalsegmentator将原始数据的标注类别由22类大幅扩展至117类,并从理论上证明了引入额外伪标签类别能够有效约束同类特征分布,扩大异类间的角度余量,从而显著提升特征鉴别力。为攻克伪标签带来的噪声污染,框架设计了基于置信度的伪标签过滤机制(CBF)以精准剔除劣质数据,并采用带有高斯随机扰动的课程学习(PSCL)策略控制训练难度,实现由易到难的渐进式演进。实验结果表明,在不增加任何人工标注成本的前提下,该框架使大模型的平均Dice系数全面提升了6.8个百分点,特别是在胰腺、食管等极具挑战性的高难度结构分割上表现优异。相关论文“Enhancing feature discrimination with pseudo-labels for foundation model in segmentation of 3D medical images”发表在学术期刊《Neural Networks》(中科院二区)上。

PESF伪标签增强医学图像分割框架
成果三:基于视频视觉变换器和时空稀疏注意力的雷达回波外推模型
团队成员邱雨楠博士和南京信息工程大学团队合作开展研究。研究人员围绕气象雷达回波外推技术开展研究,模型依托三维卷积编码与时空稀疏注意力机制捕捉时空特征,强化关键区域信息,并通过并行解码与反卷积重建高分辨率预测图像。本研究成果以“ViViT-Prob: A Radar Echo Extrapolation Model Based on Video Vision Transformer and Spatiotemporal Sparse Attention”为题,发表于Remote Sensing(中科院二区)。

Figure 14. Comparison of prediction results of various models on the radar echo dataset.
成果四:用于复杂转移序列预测的3D长时间时空卷积
团队成员邱雨楠博士和南京信息工程大学团队合作开展研究。研究依次通过全局特征提取缓解长序列遗忘问题,依靠交叉时空注意力模块捕捉局部突变细节,搭配门控模块完成多尺度特征融合。依托多个数据集开展对比测试,结果证实该模型能够有效提升时空序列预测精度。本研究成果以“3D long time spatiotemporal convolution for complex transfer sequence prediction”为题,发表于Scientific Reports(中科院三区)。

Prediction results of different models on Radar echo dataset.
成果五:融合细节感知平滑的无监督多路径分解协同校正低光图像增强算法
团队成员程勇、金鸽、张迁等研究人员针对现有基于Retinex的无监督图像增强算法无法有效处理光照突变、暗光噪声、反射率对比度过度放大等技术痛点,提出MDSC高效低光图像增强算法。研究形成三项核心创新:(1)发现Retinex分解存在反射率对比度易被不当放大的固有缺陷,设计一种反射率协同校正RSC机制;(2)依据邻域存在光照缓变方向特性,首创无监督多路径分解融合MPD框架,解决复杂场景光照骤变难题;(3)结合图像质量评价指标构建细节感知平滑DAS模型,实现降噪与细节保留兼顾。LOL、SICE和SID等权威基准数据集测试表明,所提 MDSC算法相较同类无监督方法性能提升明显,并媲美主流有监督增强算法。相关成果论文“MDSC: Unsupervised Multipath Decomposition and Synergistic Correction for Efficient Low-Light Image Enhancement with Detail-Aware Smoothing”发表于《Advanced Intelligent Systems》(中科院三区)。

MDSC算法框架
成果六:融合细节感知平滑的无监督多路径分解协同校正低光图像增强算法
在多智能体群集控制领域,模型参数不确定性与系统安全性保障始终是制约集群技术实际落地的两大核心瓶颈。现有的自适应群集算法普遍依赖持续激励条件(PE)以实现参数收敛,然而PE条件在实际系统中极难满足,导致参数估计偏差累积、碰撞风险难以预判。针对上述挑战,团队(王希铭、吴梓杏)提出了一种将并发学习自适应控制与逐元投影算子深度融合的无碰撞群集控制框架。该成果首先引入并发学习自适应机制,通过在线记录系统充分激励时段的数据并反复回放,将参数收敛条件从严苛的PE条件松弛至更易实现的区间激励条件,显著提升了系统在不确定环境下的自适应能力。其次,团队基于不确定参数有界且先验已知的假设,设计了一种逐元投影算子,将参数估计值始终约束在已知边界内,从而在系统运行前即可预先计算碰撞避免条件,从根本上解决了传统方法因Lyapunov函数初始值不可获知而导致的安全条件无法预先判定的难题。在此基础上,框架进一步提出了考虑有限感知范围与运动区域约束的分布式群集算法,通过构造二阶连续可微的有界虚拟势函数,同时实现了智能体间的碰撞避免、连通性保持与群体内聚三大目标。理论分析方面,基于LaSalle不变性原理严格证明了参数估计值在边界内收敛、碰撞避免条件成立以及系统渐近稳定。数值仿真以网络化卫星编队为测试场景,分别对比了经典自适应、仅投影算子、CL+投影算子及滤波CL+投影算子四种策略,结果表明:所提方法仅需单批次数据即可使参数估计在约5秒内收敛至真值,估计误差度量在约10秒内降至10⁻¹⁰以下,且所有智能体最终在运动目标区域内形成规整的晶格编队,速度匹配误差收敛至零。该成果有效解决了集群系统在不确定环境下的自适应能力与安全保障协同优化问题,为群集技术的实际部署提供了重要理论支撑。相关论文Collision-free flocking control of uncertain multi-agent systems: Combining current learning adaptive control and projection operator 发表在学术期刊 《Asian Journal of Control》(中科院SCI4区)上。

蜂拥轨迹图示
成果七:考虑时变通信延迟效应的固定翼无人机编队容错协同控制算法
在无人机编队任务中,信息交互过程中往往出现通信延迟。现有的控制算法大多只能处理常值或慢变的通信延迟,对时变通信延迟情况往往不适用。针对通信延迟随时间变化情况,团队(郑重)提出了适用于时变通信延迟的固定翼无人机自适应编队控制算法,并且该算法考虑了模型不确定性的影响。同时,进一步考虑了执行器故障和外界扰动情形,建立执行器故障-外界干扰补偿机制,设计了一种自适应鲁棒容错队形控制算法。针对所提出的控制方法,运用Lyapunov稳定性理论对闭环系统的渐近稳定性进行了分析,并给出控制参数和通信延迟需要满足的约束条件。数值仿真以四架无人机组成编队系统为测试场景,结果表明,所提出的控制算法能够克服外界扰动和模型不确定性的不利影响,并且系统跟踪误差最终收敛到0。与经典编队容错控制算法相比,本算法使系统收敛速度更快,并且系统控制能耗相对较小,验证了本算法的优势和有效性,为无人机大规模编队控制方案提供了参考依据。相关论文“时变通信延迟约束下固定翼无人机编队容错协同控制”将发表在学术期刊《指挥与控制学报》(T2期刊)上。

无人机跟踪误差
图、文:智能信息处理与控制团队 审核:王小军


