北京航天航空大学张慧铭教授做客数学与统计学院“知数讲堂”

发布时间:2023-10-16 浏览次数:10

    10月7日下午,数学与统计学院在雁山校区理四501报告厅举行“知数讲堂”第十一讲Minimax Rate and Sub-Gaussian Estimation for Multi-armed Bandits in Reinforcement Learning主题学术报告。本次报告的主讲人是北京航空航天大学人工智能研究院的张慧铭教授。讲座由学院行政相关负责人主持,学院师生共同聆听。

    张惠铭教授在本次讲座的主要内容是有关Multi-armed Bandits问题及为了使得reward最大化而研究出的一个算法。从Stochastic Bandits入手,然后向我们描述了在探究开发中的dilemma,之后通过讨论UCB算法-利用reward均值和置信区间来对arm进行选择,最后稳定选择的是收益大且置信区间小的arm和随机情况算法中的minimax优化策略,在亚高斯分布通过三个步骤最终提出Bootstrapped and Estimated UCB algorithms。

    讲座结束后,张慧铭教授与我院师生交流互动。张教授的分享充分达到了师生之间学术交流的目的,给予了我院师生探索前沿知识的热情和启发。(文/曲兆悦、卢枭洵,图/曲兆悦、卢枭洵,审核/晏振)

讲座现场

聆听讲座