即可将网页分享至朋友圈
近日,计算机科学与工程学院(网络空间安全学院)杨国武教授团队先后在人工智能领域顶级期刊TPAMI、TIP和CCF A类会议KDD、ICCV发表一系列高水平研究成果。
论文《Noisy Label Learning With Provable Consistency for a Wider Family of Losses》被CCF人工智能领域A类期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。博士生刘德富为第一作者,杨国武教授为通讯作者。
该论文研究了机器学习中的标签噪声学习问题。标签噪声学习是机器学习领域的热点问题之一,为了解决深度模型过度拟合训练集的错误标签,受量子叠加特性的启发,该论文设计了一个动态标签学习算法来训练深度模型,可以利用大量为传统深度学习设计的损失函数进行标签噪声学习,甚至是交叉熵损失函数(交叉熵损失函数被证明在传统深度学习算法下不具备标签噪声鲁棒性)。论文从理论上证明提出的动态标签算法具有良好的噪声鲁棒性,能在有噪声的训练集中有效地收敛到最优模型,并且该算法不依赖于损失函数和标签分布。实验结果不仅验证了本文对该方法的理论分析的正确性,还表明了本文设计的动态标签学习算法明显优于当前标签噪声学习的其他先进算法,也表明该算法具有良好的鲁棒性、扩展性和通用性。
图1:在一定范围内,随着算法中的beta不断增大,模型的抗噪声能力逐渐增强。
TPAMI是计算机视觉和人工智能领域公认的顶级国际期刊,是中国计算机学会(CCF)推荐的A类期刊,在2023年的影响因子是23.6。主要收录人工智能、模式识别、计算机视觉及机器学习领域的原创性科研成果。在TPAMI上发表的文章对于人工智能领域的研究人员和从业者来说都具有很高的参考价值。
论文《Semantic Consistent Embedding for Domain Adaptive Zero-Shot Learning》被CCF计算机图形学与多媒体领域A类期刊IEEE Transactions on Image Processing(TIP)接收。博士生张见阳为第一作者,杨国武教授为第二作者。该论文主要通过提取语义一致嵌入,研究了领域适应零样本学习问题,在图像分类领域有重要应用。该论文提出将语义空间、源域与目标域映射到一个共享空间中,从而实现了一种崭新的端到端三重语义一致嵌入方法,有效解决了领域适应零样本学习问题的主要挑战,即如何同时实现跨类别与跨域知识迁移。此外,该文提出的提取语义一致嵌入的方法相比于现有领域适应零样本学习方法在实验数据集上有显著优势。
图2:语义一致嵌入框架示意图,通过在共享空间中将源域、目标域与语义空间分别与类别原型对齐,同时实现跨域与跨类别知识迁移。
TIP是计算机图形学与多媒体领域A类期刊,具有很高的学术声誉。TIP涵盖的主题包括:图像处理、成像系统、图像扫描、显示和打印的信号处理等。在TIP上发表的文章对于图像处理领域的研究人员和从业者来说都具有很高的参考价值。
论文《Partial-label Learning with Mixed Closed-set and Open-set Out-of-candidate Examples》被数据挖掘研究领域的顶级学术会议ACM SIGKDD 2023接收、论文《Candidate-aware Selective Disambiguation Based On Normalized Entropy for Instance-dependent Partial-label Learning》被计算机视觉研究领域的顶级学术会议International Conference on Computer Vision(ICCV 2023)接收。博士生贺硕为两篇论文的第一作者,杨国武教授为通讯作者。
第一篇论文针对混合的闭集与开集噪声偏标记(CS-OOC、OS-OOC)数据提出一个统一的训练框架。具体来说,利用提出的wooden交叉熵损失(WCE),分别计算每个训练样本的候选标签和非候选标签上的对应WCE,并基于此提出样本选择准则来区分正常样本、CS-OOC样本和OS-OOC样本;然后,对于CS-OOC样本采用反向标签消歧方法在非候选标签集中识别真实标签;对于OS-OOC样本提出随机候选生成来动态地分配随机的候选标签集合,并通过学习这些难以识别的样本来消耗额外的模型容量,缓解对噪声样本的过拟合。该方法有效地缓解了混合OOC数据对于模型训练的负面影响,显著提高了模型的泛化性能。
图3: 提出的统一训练框架
ACM SIGKDD国际会议是由ACM的数据挖掘及知识发现专委会主办的数据挖掘研究领域顶级会议,属于CCF A类会议。由于该会议的交叉学科性和广泛应用性,其影响力也越来越大,吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、社会网络计算、高性能计算及大数据挖掘等众多领域的从业者和研究学者。
第二篇论文发现传统偏标记学习(PLL)方法在instance-dependent(ID)偏标记数据上的性能下降是因为在训练过程中存在的部分不完全消歧(UD)样本的不准确监督信息,影响了模型的训练与收敛。为了解决这个问题,该论文提出一种新的两阶段训练框架,包括选择性消歧和自适应阈值化。具体来说,前者首先选择部分完全消歧(WD)样本和剩余样本的补充监督信息进行联合训练;后者分别维持两种动态自适应的WD和UD阈值来选择额外的完成消歧的样本加入训练中。该方法有效地缓解了UD样本对于模型训练过程的影响,提高了模型的泛化能力。
图4: 提出的两阶段训练框架
IEEE International Conference on Computer Vision(ICCV)由IEEE主办,在世界范围内每两年召开一次,是计算机视觉方向的三大顶级会议之一,在业内具有很高的评价,其论文集代表了计算机视觉领域最新的发展方向和水平。
杨国武,教授,博士生导师,主要研究方向为形式化验证,逻辑综合,量子计算和机器学习,主持了5项国家自然科学基金面上项目;近几年在TCAD、IEEE Transactions on Computers、TPAMI和KDD等CCF A类期刊和会议发表论文10余篇。
论文链接:
Noisy Label Learning With Provable Consistency for a Wider Family of Losses
https://ieeexplore.ieee.org/document/10185026
Semantic Consistent Embedding for Domain Adaptive Zero-Shot Learning
https://ieeexplore.ieee.org/document/10183844
Partial-label Learning with Mixed Closed-set and Open-set Out-of-candidate Examples
https://dl.acm.org/doi/10.1145/3580305.3599460
编辑:李果 / 审核:李果 / 发布:陈伟