近日,人工智能领域国际顶级会议NeurIPS 2023(CCF A类国际会议)公布了论文录用结果,据官方邮件显示,今年共有12343篇投稿,录用率约为26.1%。交通数据分析与挖掘北京市重点实验室本次共有5篇论文被录用,涉及的研究方向包括长时序列预测、离线强化学习、神经过程、对抗鲁棒性和连续学习。论文的相关信息如下:
1. WITRAN: Water-wave Information Transmission and Recurrent Acceleration Network for Long-range Time Series Forecasting
作者:Yuxin Jia, Youfang Lin, Xinyan Hao, Yan Lin, Shengnan Guo, Huaiyu Wan
论文简介:
捕获语义信息涉及到对全局和局部相关性的建模,以及挖掘长期和短期的重复模式,这对于准确的长时序列预测至关重要。以往的研究工作分别在某种程度上解决了部分问题,但无法同时解决所有问题。此外,相关研究工作的时间复杂度的和内存复杂度对于长时预测仍然较高。
针对上述问题,论文提出了一种新型水波信息传输框架(Water-wave Information Transmission,WIT),该框架通过双粒度信息传输捕获长期和短期重复模式,利用水平垂直门控选择单元(Horizontal Vertical Gated Selective Unit,HVGSU)递归融合和选择信息,建立全局和局部关联模型。此外,论文还提出一种通用的循环加速网络(Recurrent Acceleration Network,RAN),将时间复杂度降低到 的同时保持内存复杂度为 ,有效地提升了模型的计算效率。
实验结果证明,论文提出的方法在远程和超远程时间序列预测任务上优于现有的方法,分别提高了5.80%和14.28%。
论文代码链接:https://github.com/Water2sea/WITRAN
2. Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL
作者:Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Youfang Lin, Shou cheng Song, Han Wang, Li Jiang
论文简介:
离线强化学习(Reinforcement Learning,RL)能够从预先收集的数据集中学习策略,而无需与环境进行交互,这为RL部署到实际应用场景提供了一种可行的技术路径。然而,现有的离线RL算法性能普遍在小数据集或状态-动作空间覆盖不足的数据集中表现不佳,导致相关方法在实际落地方面遇到很大障碍。
针对上述问题,论文提出了一套基于动力学系统基础对称性的全新框架(T-Symmetry regularized offline RL,TSRL),大幅改善离线RL在小数据集上的学习性能。TSRL的核心是一个符合时间反演对称性(T-symmetry)的动力学模型(T-symmetry enforced Dynamics Model,TDM),其可为小数据集提供更好的表征,为OOD样本提供符合T-symmetry的可靠性度量,具有对模型泛化更友好的策略约束和可靠潜在空间的数据增强。
实验结果证明,论文提出的方法在极小样本上表现十分出色,即使只有原始样本的1%,该算法的性能也显著优于现有的离线RL算法。
论文代码链接:https://github.com/pcheng2/TSRL
3. Revisiting Visual Model Robustness: A Frequency Long-Tailed Distribution View
作者:Zhiyu Lin, Yifei Gao, Yunfan Yang, Jitao Sang
论文简介:
关于视觉模型缺乏鲁棒性的一个广泛的假设是:它们利用了图像中人类感知不到的高频分量(High-Frequency Components,HFC),导致了模型的脆弱性。然而,现有工作存在两个主要问题:(1)对假设的验证结论并不一致;(2)受到该假设启发的解决方案引入了鲁棒性和准确性策略,倾向于抑制模型对HFC的学习。
针对上述问题,论文首先从长尾的角度正式定义了图像的HFC,并重新审视了高频与模型鲁棒性之间的关系。之后,分析了标准训练模型对HFC表现出高敏感性的原因,发现这种敏感性源于HFC中有限的信息量,导致了模型对高频的欠学习行为。最后,提出了一种平衡频谱采样策略(Balance Spectrum Sampling,BaSS),有效地抵消长尾效应并增强模型对HFC的学习。
实验结果证明,论文提出的方法与现有防御方法结合时,能够在鲁棒性和泛化性之间得到更好的平衡,表明了学习图像HFC对提高模型性能的潜力。
4. Neural Processes with Stability
作者:Huafeng Liu, Liping Jing, Jian Yu
论文简介:
与依赖于手动设定先验的传统统计模型不同,神经过程(Neural Process, NP)是一类结合了神经网络和随机过程优势的神经统计模型。NP可以将上下文知识编码到函数空间来定义一类灵活的随机过程,非常适合高度非平凡函数的近似。然而,嘈杂的上下文点给算法稳定性带来了挑战,即使是训练数据中的微小变化都可能显著改变模型并降低模型的泛化性能。
针对上述问题,论文在NP中引入了算法稳定性的概念,找出比平均值更难预测的子集,为推导出具有高泛化的稳定解提供理论指导,并设计可灵活与各类NP模型相结合的稳定算法以适应一般的随机过程,从理论上保证较少的偏差近似。
实验结果证明,论文提出的算法能够显著提升神经过程在图像补全、物理引擎的动态系统识别、贝叶斯优化等方面的性能。
5. Overcoming Recency Bias of Normalization Statistics in Continual Learning: Balance and Adaptation
作者:Yilin Lyu, Liyuan Wang, Xingxing Zhang, Zicheng Sun, Hang Su, Jun Zhu, Liping Jing
论文简介:
连续学习旨在从一系列有序任务中获取、积累和利用知识。在基于梯度的优化问题中,由于对旧任务的训练样本访问有限,多数深度神经网络的工作都集中在克服旧任务的灾难性遗忘上。然而,归一化层是个例外,它们由当前观察到的训练样本梯度和统计信息相互依赖地更新,需要专门的策略来降低近因偏差。
针对上述问题,论文对批量归一化(Batch Normalization,BN)在连续学习中的次优性进行了深入的理论分析,证明增量任务中平衡和适应BN统计信息是影响模型训练稳定性和泛化性能的关键,并提出了一种自适应平衡的BN(Adaptive Balance of BN,AdaB2N),它适当地结合了基于贝叶斯的策略来适应任务,同时使用了改进的动量来平衡BN统计信息。
实验结果证明,论文提出的方法在各种基准测试中均有显著的性能提升,尤其是对于具有挑战性的真实在线场景。例如,在Split CIFAR-10、Split CIFAR-100和Split Mini-ImageNet数据集上平均准确率分别提高了7.68%、6.86%和4.26%。
论文代码链接:https://github.com/lvyilin/AdaB2N