西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部分。赵老师明确知道RL创新研究的理论门槛在哪,也知道视频前的你我距离这个门槛还有多远。

本笔记将会用于记录我学习中的理解,会结合赵老师的视频截图,以及PDF文档Book-Mathematical-Foundation-of-Reinforcement-Learning进行笔记注释,之后也会补充课程相关的代码样例,帮助大家理解

笔记合集链接(排版更好哦🧐):《RL的数学原理》

记得点赞哟(๑ゝω╹๑)

前面章节贵在基础性,后面章节在于前沿性与实践性

  • Chapter1:基本概念
  • Chapter2:贝尔曼公式,重要的概念及工具,用以策略评价
  • Chapter3:贝尔曼最优公式->最优策略,强化学习的最终目标就是求解最优策略, 需要把握两点:最优策略与最优状态价值。贝尔曼最优方程:1.不动点原理,2. 解决基础性问题,3. 提供求解贝尔曼方程的算法
  • Chapter4: 你的第一类求解最优策略的算法:值迭代,策略迭代,Truncated policy(第三个是前两者的结合,亦或者说是前两者的一种积分情况)。以上三个算法都是迭代式的算法,都包含策略迭代与值迭代,在实践中不断迭代,从而获得最优策略。未来所有的算法都是以此为基本逻辑。另外,以上都需要环境模型。
  • Chapter5:蒙特卡洛是最简单,也是唯一不需要模型的算法,需要明确没有模型的情况下,我们的训练目标是什么,以及我们所拥有的是什么:期望值(某种程度上可以理解为平均值),采样数据。模型与数据必有其一才可学习。你的第一类求解无模型的RL的算法:1. MC Basic(策略迭代数据版,效率特别低), 2. MC Exploring Starts, 3.MC ϵ-greedy
  • Chapter6:随机近似理论,估计随机变量的期望, 两种估计的方法:1.无增量的想法,需要对所有采样的结果都获取到之后求平均,获得近似,2. 有增量的想法,先对其有一个不准确的估计,每次获得采样后,不断更新估计。三种算法:1. Robbins-Monro(RM)算法,2. Stochastic gradient descent(SGD)随机梯度下降,3. SGD,BGD批量下降,MBGD小批量梯度下降三者之间的比较。
  • Chapter7:时序差分方法,1. 用TD方法计算state value(前面使用了蒙特卡洛、模型等方法计算),2. Sarsa:用TD思想学习动作价值,3. Q-learing:用TD直接计算最优动作价值,因此是off-policy离线策略。Behaviour Policy 与 Target Policy 如果二者相同,那就是On-policy,反之就是Off-policy(可以从先前别的策略学习到的数据为我所用)
  • Chapter8:从之前的邻接矩阵形式,迈入了函数表达式,使用近似函数模拟的方式求解状态价值:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。模型应用中,值函数的更新是通过真实值和函数值之差的绝对值来评判。与时序差分算法的多种结合。利用了神经网络所具有的优秀函数拟合能力,发展产生了深度强化学习。
  • Chapter9:从Value-based迈入了policy-based,他们的区别在于后者是直接使用函数拟合,并且直接改变优化策略:明确目标函数,求梯度,使用梯度上升或梯度下降进行优化。
  • Chapter10:结合Value-based(Critic)和policy-based(Actor)

课程是否适合你?

本课程是原理部分,偏向于用数学原理来描述问题,能够更全面更完整理解,只有深刻理解原理,才能有所创新

0节:课程介绍

1、Why this course?

  • Reinforcement learning:An introduction.强化学习界的圣经(广泛引用,但是数学内容不多,对深入学习不算友好,同时会有高级知识提前出现在基础内容中,导致学习不太友好)
  • 一大类书籍都偏向于通过文字描述,通过直观解释来介绍,另一大类又太过数学化,需要极强的专业背景,中间存在一个Gap等待被填充
  • 我们希望从本质去回答去回答算法设计的逻辑,将数学控制在合理的水平,既能清晰展现原理,又不会过于晦涩
  • 建议大家循序渐进,按照章节进行学习

2、The story of Alphago

3、Brief history of rl

DQN:RL与deep RL的分界线

Q-learning:一种时序差分算法

4、Details of this course

强化学习与监督学习、半监督学习并列属于ML,其有着广泛地交叉应用领域,并在控制方向上也有着重大作用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/582582.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Json数据概念及C# 环境下的序列化、反序列化操作

什么是Json? JSON的全称是JavaScript Object Notation,是一种轻量级的数据交换格式,主要用于数据的序列化和交互。常用于Web中,其他领域也经常出现JSON的身影。 与xml相比,更快,更小,更容易解析…

RCE复习(ctfhub上)

一、rce漏洞概述 在Web应用开发中为了灵活性、简洁性等会让应用调用代码执行函数或系统命令执行函数处理,若应用对用户的输入过滤不严,容易产生远程代码执行漏洞或系统命令执行漏洞。 二、常见RCE漏洞函数 1.系统命令执行函数 system():能将…

C++模板超详解

目录 一、了解什么是泛性编程 二、模版 1.函数模版 1.1 函数模板概念 1.2 函数模板格式 1.3 函数模板的原理 1.4 函数模板的实例化 1.5 模板参数的匹配原则 2.类模板 2.1 类模板的定义格式 2.2 类模板的实例化 3. 非类型模板参数 4. 模板的特化 4.1 概念 4.2 …

股票分红扣税!详解现金分红、送红股和转增股本

股票分红 股票分红指的是上市公司根据其盈利情况,按照股东持有的股份比例,向股东分配利润的方式。股票分红需要满足一定的前提条件 1、公司必须存在可供分配的利润,公司在过去的经营活动中已经实现了盈利,并且这些盈利在缴纳了企…

【python技术】使用akshare抓取东方财富所有概念板块,并把指定板块概念的成分股保存excel 简单示例

最近有个想法,分析A股某个概念成分股情况进行分析,第一反应是把对应概念板块的成分股爬取下来。说干就干 下面是简单示例 import akshare as ak import pandas as pddef fetch_and_save_concept_stocks(name):# 获取指定股票概念的成分股,并…

宝塔面板mysql允许root账号登录

直接通过宝塔面板创建的mysql数据库,root是只允许localhost访问的,下面需要配置允许所有IP人员,都能访问 1、进入mysql: mysql -uroot -p 2、 使用mysql库: use mysql; 3. 查看用户表: SELECT Host,U…

K-近邻算法的 sklearn 实现

实验目的与要求 掌握基于 K-近邻分类算法的编程方法通过编程理解 K-近邻分类算法和该算法的基本步骤 实验器材 硬件:PC 机(参与实验的学生每人一台)软件环境:Python3.7 Pycharm 实验内容 使用 sklearn 库中的 neighbors 模块实…

C++深度解析教程笔记3

C深度解析教程笔记3 第5课 - 引用的本质分析实验-const引用实验-引用的本质实验-引用所占空间大小vs2010反汇编 实验-局部变量的引用小结 第6课 - 内联函数分析实验-内联函数设置允许编译器内联 实验-forceinline小结 本文学习自狄泰软件学院 唐佐林老师的 C深度解析教程&#…

做私域不止是积累流量,生态也很重要!

如今,私域流水占比已经逼近整个零售市场的30%,达到4万亿规模,百度、阿里、腾讯等头部玩家也都在加速布局,私域运营,已不再是一个单一的商业模式或者运营手段,而是逐渐构成一种可持续的行业生态。 一、什么…

el-form 表单设置某个参数非必填验证

html <el-form ref"form" :rules"rules"><el-form-item prop"tiktokEmail" label"邮箱" ><el-input v-model"form.tiktokEmail" placeholder"邮箱" ></el-input></el-form-item&…

Docker-容器的前世今生

文章目录 Docker为什么产生&#xff1f;硬件虚拟化硬件虚拟化解决的问题硬件虚拟化定义硬件虚拟化技术虚拟机的优点虚拟机的缺点 操作系统虚拟化即容器容器化解决的问题容器化定义容器化技术历史 容器和虚拟机对比 Docker的发展历史Docker架构客户端服务端仓库Registry Docker重…

民航电子数据库:mysql与cae(insert语法差异)

目录 示例1、cae插入数据时不支持value关键字&#xff0c;只能使用values2、insert时&#xff0c;就算是自增主键&#xff0c;只要新增时包含了主键&#xff0c;该主键就必须有值&#xff0c;否则会报错&#xff1a;字段xxx不能取空值 对接民航电子数据库&#xff0c;本篇记录i…

循环购模式:引领消费新潮流,共创商业新生态

大家好&#xff0c;我是吴军&#xff0c;今天我想和大家分享一个独特而富有吸引力的商业模式——循环购模式。这是一种融合了消费返利与积分机制的新型购物体验&#xff0c;它为消费者和商家带来了前所未有的互动机会。 在循环购模式的运作下&#xff0c;消费者的每次购物都伴随…

OSPF大作业

一&#xff0c;拓扑 二&#xff0c;要求 1&#xff0c;r4为ISP上只配ip&#xff0c;r3与其他设备之间只使用公有IP 2&#xff0c;r3-r5/6/7为MGRE环境&#xff0c;r3为中心 3&#xff0c;整个OSPF的ip地址基于172.16.0.0/16划分 所以设备都可以访问r4的环回 4减少LSA的数量加快…

【转载】C++代码中将函数返回类型后置有啥好处吗

C代码中将函数返回类型后置有啥好处吗&#xff1f; 内容如下&#xff1a; C代码中将函数返回类型后置有啥好处吗&#xff1f; 这种语法是 C11 新增的&#xff0c;学名叫 trailing return type[1]。翻译过来是后置返回类型&#xff0c;trailing 是后面的、拖尾的意思。书写 int …

质量管理,怎能不知道SPC?

SPC&#xff08;统计过程控制&#xff09;是质量管理的一个重要组成部分&#xff0c;它可以帮助企业更好地控制生产过程、提高产品质量、降低生产成本、增强企业的竞争力。 SPC是一种应用统计技术对过程中的各个阶段进行评估和监控&#xff0c;建立并保持过程处于可接受的并且稳…

深入理解Linux调试工具eBPF和strace、内存泄漏处理、Kubernetes容器调试以及C++协程的崩溃信息收集

在软件开发领域&#xff0c;无论是初级开发者还是资深工程师&#xff0c;都需要面对复杂的调试工作。本文将介绍几个重要的调试工具和技术&#xff0c;并提供实际调试方法的指导&#xff0c;包括Linux环境下的eBPF和strace&#xff0c;内存泄漏问题的处理&#xff0c;Kubernete…

020Node.js的FS模块使用fs.mkdir创建目录

Node.js的FS模块使用fs.mkdir创建目录 //fs.mkdir 创建目录 /*path 将创建的目录路径mode 目录权限&#xff08;读写权限&#xff09;&#xff0c;默认777callback 回调&#xff0c;传递异常参数err*/ const fsrequire(fs);fs.mkdir(./css,(err)>{if(err){console.log(err)…

时间序列模型(含python程序实现)

常用按时间顺序排列的一组随机变量来表示一个随机事件的时间序列&#xff0c;简记为 用表示该随机序列的n个有序观察值&#xff0c;称之为序列长度为n的观察值序列。 常用的时间序列模型 时间序列的预处理 拿到一个观察值序列后&#xff0c;首先要对它的纯随机性和平稳性进行…

PC-3000 Mobile Pro: 智能手机及平板设备数据提取及取证工具

天津鸿萌科贸发展有限公司从事数据安全业务20余年&#xff0c;在数据恢复、数据取证、数据备份等领域有丰富的案例经验、前沿专业技术及良好的行业口碑。同时&#xff0c;公司面向取证机构及数据恢复公司&#xff0c;提供数据恢复实验室建设方案&#xff0c;包含数据恢复硬件设…
最新文章