即可将网页分享至朋友圈
近日,生命科学与技术学院陈华富团队在人工智能权威期刊Information Fusion (中科院一区,影响因子15.5) 发表了大脑视觉信息解码研究成果,题为“MFA-NRM: A novel framework for multimodal fusion and semantic alignment in visual neural decoding”。青年教师黄伟、硕士生李恒江为该论文共同第一作者,陈华富教授和程凯文副教授为共同通讯作者,电子科技大学为第一单位。
将图像和文本等多模态语义特征融合以增强视觉神经表示,在大脑视觉解码中已被证明有效。为了克服先前研究中未解决的对齐歧义问题,我们提出了多模态融合对齐神经表示模型(MFA-NRM)。该模型通过变分自编码器(VAE)和自注意力机制,将图像和文本特征整合到统一的潜在空间,促进与神经活动的稳健对齐。此外,引入提示技术提升了跨个体的泛化能力。实验结果表明,MFA-NRM在识别和分类任务中均表现优异,尤其在多模态对齐方面显著优于单模态方法和其他多模态对齐方法,能够从大脑对多模态视觉刺激的反应中提取更丰富的语义,为视觉神经解码提供了新的思路。
图1 解决视觉神经对齐模糊问题
MFA-NRM模型由五个模块组成,包括图像编码器、文本编码器、提示编码器、多模态融合模块和大脑编码器。图像编码器提取视觉特征,文本编码器提取文本特征,提示编码器提取被试的先验提示特征。多模态融合模块将图像和文本特征融合,为解码过程提供更丰富的语义输入。图2展示了MFA-NRM模型的整体结构。
图2 表征学习模型图
图3和图4展示了不同策略和框架在识别和分类任务中的表现。多模态方法相比单模态方法提高了准确率,其中MFA-NRM方法表现最佳,优于其他方法。MFA-NRM在单模态对齐方法中也表现优异,并在结合10个额外预训练模型后进一步提升了准确率,显示了其在分类任务中的显著优势。
图3 与其他模型框架的对比(识别任务)
图4 与其他对齐方法的对比(分类任务)
图5展示了不同方法在四个被试上的解码性能。引入融合模块后,MA-CLIP-FM和MA-TEN-FM的准确率分别提高了4.27%和2.10%,验证了我们方法的有效性。实验结果表明,融合模块显著提升了多模态方法的性能,进一步证明了我们方法的优势。
图 5 不同预训练模型的对齐分类表现
该表征工作的价值体现在以下几个方面:(1)增强视觉神经解码:通过多模态融合方法,提升了视觉神经解码的准确性。(2)跨模态信息整合:有效融合图像和文本等模态数据,提升神经表示的语义丰富性。(3)提高脑机接口性能:为脑机接口提供更精确的神经表示,改善智能辅助设备的控制能力。(4)促进神经科学研究:优化神经表示学习方法,帮助深入理解大脑信息处理机制。
论文链接:
https://www.sciencedirect.com/science/article/pii/S1566253525007766
黄伟,电子科技大学青年教师。中国图象图形学会类脑视觉专委会委员、计算视觉专委会委员。针对类脑智能、脑信息编解码、生成式语言模型、多模态模型等领域难题,开展人工智能和脑科学的交叉研究。近年来,在脑科学和人工智能领域Information Fusion (2篇), Neural Networks, International Journal of Neural Systems和Computer Methods and Programs in Biomedicine等期刊发表SCI论文30余篇,以第一或通讯作者(共同)发表SCI论文15篇;授权/受理国家发明专利12项。主持国家级或省部级等科研项目4项,参与国防科技、国自然和省部级项目5项。此外,曾在华为工作两年,获得《算法创新优秀新人奖》、《算法技术攻关奖》、《业务服务优秀奖》等多个奖项;入职电子科技大学后,指导学生获得2024/2025年生物医学工程竞赛国家级/省级/校级12项。
李恒江,2023级硕士研究生,本科毕业于西南科技大学信息安全专业,硕士就读于电子科技大学生物医学工程专业。研究方向是大脑视觉信息解码。近年来,对视觉神经解码较为系统的研究,已经以共同一作在Information Fusion 和International Journal of Neural Systems发表2篇SCI与4项相关专利成果。
陈华富,教授,博导。国家杰出青年科学基金获得者,天府创新领军人才,四川省教书育人名师。致力于磁共振脑影像方向研究,并组建“脑成像与模式识别”研究团队,主要从事磁共振脑影像数据模式识别的人工智能与机器学习方法研究、神经与精神疾病影像机制研究,探测疾病的典型影像学特征,为临床诊断和评估提供影像学依据。主持科技部863、重点研发人工智能2030项目、国家自然基金重点、杰青和面上等科研项目。团队在Science Advances、Nature Communications、PNAS、Information Fusion、Biological Psychiatry、Molecular Psychiatry、Brain、PLoS Biology、Neurology、IEEE Trans MI/BME等期刊发表SCI论文300余篇。获教育部自然科学一等奖1项和教育部科技进步一等奖和二等奖各1项,获四川省科技进步自然科学类一等奖1项。
程凯文,电子科技大学生物医学工程博士,四川外国语大学语言智能学院副教授,嘉陵青年学者,硕士生导师。现为《心理科学》, Brain Sciences等期刊匿名外审专家,重庆神经科学学会理事,中国神经科学学会认知神经生物学分会会员、中国神经语言学研究会会员。主要从事认知神经科学、心理语言学和语言智能等方面的研究,已在Language and Cognition、Lingua、Information Fusion、Brain research bulletin、Frontiers in human neuroscience、Human brain mapping、Neural networks、Peerj、《心理科学进展》、《外国语文》等期刊发表论文30余篇;获四川省社会科学优秀成果奖三等奖1次;主持重庆市社科项目1项和第二轮重庆市一流学科外国语言文学重点项目1项,完成厅级和校级项目6项,参与国家社科基金和自科基金项目3项。
编辑:助理编辑 / 审核:王晓刚 / 发布:陈伟