当前位置: 首页 > news >正文

企业网站直销例子网络营销首先要

企业网站直销例子,网络营销首先要,深圳市建网站公司,wordpress与drupal前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 本篇继续介绍:openai的RL开源框架Gym。在介绍之前,先来玩一个经典游戏。

1、CartPole游戏介绍

在这里插入图片描述
 如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。
 由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。

2、代码

import gymif __name__ == "__main__":env = gym.make("CartPole-v0")total_reward = 0.0total_steps = 0obs = env.reset()while True:action = env.action_space.sample()obs, reward, done, _ = env.step(action)total_reward += rewardtotal_steps += 1if done:breakprint("Episode done in %d steps, total reward %.2f" % (total_steps, total_reward))

 这个代码是一个随机的智能体,即没有任何的学习策略,每次都是随机选择向左或者向右移动。同时每次调用env.step会返回当前的观察、奖励以及游戏是否结束(木棍倒了)。之后在累加奖励和步长。如果游戏结束,则跳出循环。
 可以看出,这个智能体是没有任务策略,而且也没有用到观察、以及奖励作为反馈。如果你运行代码:大概得到以下结果:
在这里插入图片描述
 从上述结果可以看出:当执行到13步时候游戏结束,且最终返回的总奖励为13。当然这个结果很差,但这只是个随机智能体版本,后续会借助RL算法来不断优化性能,使其坚持的步骤更多。

总结

 本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。

http://www.cadmedia.cn/news/13648.html

相关文章:

  • 网站建设首页布局优化资讯
  • 个人网站制作申请优化外包服务公司
  • 汉阳网页设计苏州关键词优化怎样
  • 网站建设营销解决方案广州网站推广排名
  • 建一个电商网站要多少钱上海百度推广方案
  • 建设刷单网站销售找客户的方法
  • 加工平台网站seo排名赚app
  • 山西省政府网站建设的公司线上推广100种方式
  • 襄阳建设21网站整站优化全网营销
  • 抖抈app下载国际版关键词优化意见
  • 福田网站建设设计公司线上营销策划方案
  • h5自适应网站建设湖南百度推广开户
  • 专门做pp他的网站河南百度推广公司
  • 武汉定制公交网站爱站网关键词挖掘工具熊猫
  • 北京做养生SPA的网站建设网站优化排名软件网站
  • 健身俱乐部网站建设方案设计昆明seo排名
  • 南昌网站建设服务器营销策略怎么写模板
  • 定制企业网站进入百度搜索网站
  • 苏州新海通网站建设网络推广公司运作
  • 如何用电子邮箱做网站化工网站关键词优化
  • 门户网站开发投标文件北京百度seo关键词优化
  • 葡萄城网站建设营销方案案例范文
  • 网站建设制作开发 小程序开发定制 软件系统开发html简单网页代码
  • 西城区网站建设如何做企业产品推广
  • 武汉网站建设电话多少钱做网站建网站公司
  • 疫情防控最新动态优就业seo课程学多久
  • 重庆高端网站建设公司百度新闻搜索
  • 医院工程建设网站头条搜索站长平台
  • 西安做营销型网站建设今日国内新闻摘抄十条
  • 固镇网站建设哪家好?网络营销具有哪些优势和吸引力