近期,beat365手机中文官方网站张民教授课题组在深度强化学习系统的安全可靠构造与验证方面取得重要进展。深度强化学习系统已被广泛运用于无人驾驶飞机、自主驾驶汽车等安全攸关领域,由于智能模块的不可解释性、系统空间的高维和无限连续性,使得深度强化学习系统的构造与验证面临极大的技术挑战。
张民课题组创新性地提出了一种新的抽象强化学习方法,首先对系统状态进行有限与离散抽象,并在抽象状态上对系统进行训练,同时在训练过程中引入形式化验证技术,设计了基于反例制导的“训练-验证-精化“迭代策略,实现深度强化学习系统的构造正确性保证。该研究主要由课题组的三位研究生金鹏(2019级硕士研究生)、田家旭(2021级硕士研究生)、郅大鹏(2021级博士研究生)在张民教授与华为谢尔德实验室的温学军博士共同指导下完成。相关论文Trainify: A CEGAR-Driven Training and Verification Framework for Safe Deep Reinforcement Learning (Peng Jin, Jiaxu Tian, Dapeng Zhi, Xuejun Wen, Min Zhang)已被计算机科学理论领域顶级会议The 34th International Conference on Computer-Aided Verification(CAV2022)接收。
基于反例制导的强化学习系统“抽象-验证-精化”迭代可靠性构造框架图
CAV是计算机科学理论领域的顶级会议之一,也是中国计算机协会(CCF)推荐A类会议。该会议致力于硬件和软件系统的计算机辅助形式化分析方法的理论和实践的进步,涵盖从实用的验证工具以及实现这些工具所需的算法和技术。每年以中国科研机构为第一单位在CAV上发表的论文仅2-3篇,学院已经连续两年以第一单位在该会议上发表可信人工智能领域的论文。
近年来,学院组织优秀骨干教师重点攻关可信人工智能领域关键难题,在深度学习系统鲁棒性验证、深度强化学习系统的可信构造、混成系统的分析与验证等方面取得了一系列进展,相关成果发表在CAV、ISSTA、AAAI、CVPR等可信软件领域与人工智能领域顶级会议上。相关研究得到科技部科技创新2030—“新一代人工智能”重大项目、国家自然科学基金中以国际合作项目、华东师范大学-华为创新实验室项目等资助。