1.报告人:张慧铭
2、报告题目:从老虎机到强化学习再到AlphaGo蒙特卡洛树搜索策略的统计观点
3、报告时间:10月16日(周四)15:00
4、报告地点:柏彦大厦F12会议室6
5、报告摘要:
强化学习(RL)借助与环境交互,依托奖励函数引导智能体决策,在自动驾驶、推荐系统、机器人控制、大语言模型(如OpenAI-PPO、DeepSeek-R1算法)、金融交易、医疗诊断、精准教育等领域应用广泛。当环境恒定时,RL问题可转化为多臂老虎机(MAB)问题,该问题聚焦于收益不确定性场景下,构建序贯决策的最优臂识别算法。本报告首先回顾MAB的亚分布假设及一致上界(UCB)算法,探讨在有限时间亚分布假设下MAB算法的非渐近分析工具,包括集中不等式与Minimax统计遗憾上界。为规避过度利用或探索,在不调参的框架下,报告借助稳健统计思想研究UCB算法的探索-利用权衡参数的估计方法。其次,聚焦大语言模型为例,报告回顾基于Q函数的RL与省钱的异策略评估方法,并介绍与老虎机UCB算法关联的AlphaGo蒙特卡洛树搜索策略,以及 Deepseek-Prover-V1.5。
1、报告人:张慧铭
2、报告题目:从OpenAI PPO、DeepSeek GRPO到Qwen GSPO的统计视角
3、报告时间:10月17日(周五)15:00
4、报告地点:柏彦大厦F12会议室6
5、报告摘要:
本报告将系统性地阐述并推导了强化学习领域三类重要策略优化算法的统计理论基础及其演进关系。首先,报告将详细分析OpenAI提出的近端策略优化(Proximal Policy Optimization, PPO)方法的核心数学框架;其次,深入探讨幻方量化旗下深度求索团队在DeepSeek R1技术报告中提出的组相对策略优化(Group Relative Policy Optimization, GRPO)算法;最后,重点介绍通义千问团队最新Qwen3系列模型所采用的组序列策略优化(Group Sequence Policy Optimization, GSPO)算法,该算法通过引入序列化优化机制,有效解决了GRPO算法在训练稳定性方面存在的关键问题。总而言之,将统计学思想融入大语言模型训练有助于优化模型、提升稳定性并增强可解释性。特别是稳健估计与信息论方法,可提升大语言模型在复杂环境中的适应能力,使其在多样化任务中表现更卓越。
报告人:
张慧铭
北京航空航天大学

张慧铭,北航人工智能研究院的副教授(准聘),硕士生导师。曾在澳门大学担任濠江学者博士后研究员(2020-2022);曾就读于北京大学(2016-2020)获得统计学博士。研究方向:机器学习与AI理论(包括泛化误差、非渐近方法与调参理论等)、稳健估计、高维概率统计、函数型数据、子抽样估计及Lévy过程等。发表SCI论文28篇(包括AI与自动化领域顶刊JMLR,IEEE-TAC; 统计顶刊JASA,Biometrika; 精算顶刊IME; 统计、数学、与物理等知名期刊Statistica Sinica,Journal of Multivariate Analysis, Journal of Complexity,Scientific Reports和Physica Scripta等;谷歌学术引用超过860次),其中四篇(曾)为Web of Science高被引论文。主持过国自然的青基一项以及参与国际(地区)合作与交流研究项目一项;担任美国《数学评论》评论员;担任过统计、概率、AI与机器学习领域顶刊(AOS,AOAP,JASA,JMLR,IEEET-SP)的审稿人。