当前位置: 首页 > news >正文

公司的网站建设费应该怎么入账国际新闻最新消息2022

公司的网站建设费应该怎么入账,国际新闻最新消息2022,亚马逊雨林有人类居住吗,wordpress 新浪微博秀SARSA是一种基于值函数的强化学习算法,属于同策略(On-Policy)方法,其核心思想是通过当前策略生成的实际动作序列来更新Q值。前文我们已经了解过Q-Learning,而Q-Learning是异策略(off-policy),即使用一个策略来探索,另一个策略来更新。与Q-Learning不同,SARSA严格遵循…

        SARSA是一种基于值函数的强化学习算法,属于同策略(On-Policy)方法,其核心思想是通过当前策略生成的实际动作序列来更新Q值。前文我们已经了解过Q-Learning,而Q-Learning是异策略(off-policy),即使用一个策略来探索,另一个策略来更新。与Q-Learning不同,SARSA严格遵循“行动策略即学习策略”的原则,这意味着它在学习过程中遵循的策略与用于行动的策略是相同的。这一点是SARSA的核心区别。具体的我们从SARSA的名字来源State-Action-Reward-State-Action就可知,说明它是基于当前状态、动作、奖励、下一个状态和下一个动作来进行更新的。因此SARSA特别适用于需要平衡探索与利用的安全敏感场景(如机器人避障、无人机飞行)。

        同时,SARSA也属于时间差分学习(Temporal Difference, TD)方法的一种。这个在后面的内容中继续学习。

        有关Q-Learning可以看我的文章:基于值函数的强化学习算法之Q-Learning详解-CSDN博客

一、核心思想

        同策略学习:SARSA使用当前策略(如ε-贪婪策略)生成的动作序列来更新Q值,即更新依赖于实际执行的动作(包括探索动作)。

        更新公式:基于贝尔曼方程,用实际下一步动作的Q值计算目标值:

        其中a′是实际在状态s′下选择的动作。

        SARSA使用的是实际执行的下一个动作的Q值。因此,SARSA的更新更依赖于实际采取的策略,这在某些情况下可能更安全,但收敛可能较慢。

二、算法流程

        SARSA的流程与Q-Learning类似,但关键区别在于动作选择和Q值更新

1.初始化

        创建Q值表Q(s,a),初始化为零或随机值。

        设置超参数:学习率α、折扣因子γ、探索率ϵ。

2.循环训练(每回合)

http://www.cadmedia.cn/news/3839.html

相关文章:

  • 一家专门做房产特卖的网站谷歌seo排名优化
  • 免费浪漫网页制作网站网站排名优化服务公司
  • seo收费低南阳网站seo
  • 长宁苏州网站建设公司网站优化公司哪家效果好
  • 上海响应式网站建设怎么快速排名
  • 濮阳建设工程交易网中标公示自学seo大概需要多久
  • 中山精品网站建设方案电商运营怎么做如何从零开始
  • 免费建设网站赚钱百度云登陆首页
  • 贵州建设厅考试网站安全员长尾关键词挖掘词
  • 网站信用建设应该用什么技术seo培训班 有用吗
  • 东莞商城网站开发广州优化seo
  • 网站建设价类型在线培训考试系统
  • 甘肃网站建设推广网络营销方案如何写
  • 建设银行官方网站手机版下载标题优化怎样选关键词
  • 网站建设孝感深圳营销推广引流公司
  • wordpress迁移discuzseo查询源码
  • 网站建设在日本百度知道答题赚钱
  • 抚顺市 网站建设百度网盘手机app下载安装
  • 岳阳网站优化公司怎样在百度打广告
  • 博物馆网站建设方案报价网站优化推广费用
  • 租车公司哪家好成都seo技术
  • 郑州网站推广服务深圳竞价托管
  • 罗庄建设局网站澳门seo推广
  • 天津seo方案家庭优化大师免费下载
  • 海淘直邮购物网站网络推广营销
  • 临海高端营销型网站建设地址比较好的免费网站
  • 泉州网站建设公司首选公司哪家好网站推广是干嘛的
  • ie9网站后台编辑器百度经验首页登录官网
  • 娄底建设网站的公司网站批量查询工具
  • 物流网站建设规划书上海网站营销seo电话