强化学习

编程语言

差分进化算法求解基于移动边缘计算（MEC）的无线区块链网络的联合挖矿决策和资源分配（提供MATLAB代码）

一、优化模型介绍在所研究的区块链网络中，优化的变量为：挖矿决策（即 m）和资源分配（即 p 和 f），目标函数是使所有矿工的总利润最大化。问题可以表述为： max ⁡ m , p…

1天前
算法结构

经典ABR算法介绍：Pensieve (SIGCOMM ‘17) 原理及训练指南

文章目录前言 Pensieve原理 *Pensieve重训练参考 Oboe [SIGCOMM ’18] Comyco [MM ’19] Fugu [NSD…

1天前
16. 蒙特卡洛强化学习基本概念与算法框架

文章目录 1. 是什么 2. 有何优点 3. 基本概念 3.1 立即回报 3.2 累积回报 3.3 状态值函数 3.4 行为值函数 3.4 回合（或完整轨迹，episode） 3….

算法结构 1天前
人工智能

【强化学习】Q-learning训练AI走迷宫

0. 简单总结 Q-learning？最简单的强化学习算法！不需要深度学习网络的算法！带有概率性的穷举特性！（甚至还有一点点动态规划的感觉） 1. Q-learning介绍 …

1天前
算法结构

多目标优化（Python）：多目标粒子群优化算法（MOPSO）求解ZDT1、ZDT2、ZDT3、ZDT4、ZDT6（提供Python代码）

一、多目标粒子群优化算法多目标粒子群优化算法（MOPSO）是一种用于解决多目标优化问题的进化算法。它基于粒子群优化算法（PSO），通过引入多个目标函数和非支配排序来处理多目标问题…

1天前
人工智能

【深度强化学习】(7) SAC 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下 SAC (Soft Actor Critic) 算法，一种基于最大熵的无模型的深度强化学习算法。基于 OpenAI 的 gym 环境完成一个小案例，完整…

1天前
人工智能

Webots搭建强化学习二轮避障小车（看看吧蛮详细的）

作为一个刚接触webots数日的新手，来着手使用webots搭建一个二轮小车并实现避障的任务,以及使用webots进行强化学习的尝试。该文章主要有如下的内容：大概内容： …

1天前
后端

大模型机器人的进击时刻：从RoboFlamingo、OK-Robot到CMU 18万机器人、Digit、FMB

这两天，我在朋友圈说道，本质上来讲，斯坦福mobile aloha就是大模型机器人领域里的缩略版ChatGPT时刻，虽然aloha本身并没有像ChatGPT那么强大(毕竟才三人团队…

1天前
算法结构

深度强化学习Task2：策略梯度算法

本篇博客是本人参加Datawhale组队学习第二次任务的笔记【教程地址】文章目录基于价值算法和基于策略算法的比较策略梯度算法策略梯度算法的直观理解策略梯度算法 REIN…

1天前
【RL】(task1)马尔科夫过程、动态规划、DQN

note 文章目录 note 一、马尔科夫过程二、动态规划 DQN算法时间安排 Reference 一、马尔科夫过程递归结构形式的贝尔曼方程计算给定状态下的预期回报，这样的方…

算法结构 1天前
人工智能

【深度强化学习】(8) iPPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下多智能体深度强化学习算法 ippo，并基于 gym 环境完成一个小案例。完整代码可以从我的 GitHub 中获得：https://github.com/L…

1天前
算法结构

DQN基本概念和算法流程（附Pytorch代码）

❀DQN算法原理 DQN，Deep Q Network本质上还是Q learning算法，它的算法精髓还是让 Q 估计 Q_{估计} Q估计尽可能接近 Q 现实 Q_{现实} Q…

1天前
Python

【深度强化学习】(4) Actor-Critic 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的 Actor-Critic 演员评论家算法，Actor-Critic 算法是一种综合了策略迭代和价值迭代的集成算法。我将使用该模型结合 O…

1天前
人工智能

Policy Gradient策略梯度算法详解

1. 基本思想 Policy Gradient策略梯度（PG），是一种基于策略的强化学习算法，不少帖子会讲到从基于值的算法（Q-learning/DQN/Saras）到基于策略的算…

1天前
Python

【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码

大家好，今天和各位分享一下深度强化学习中的近端策略优化算法（proximal policy optimization，PPO），并借助 OpenAI 的 gym 环境完成一个小案例…

1天前

1 / 501 2 3 4 5 6 下一页 »