当前位置:CRM > 强化学习

强化学习和世界模型中的因果推断

2024-01-26 12:01:30
强化学习和世界模型中的因果推断
在强化学习,尤其是世界模型理论中,因果推断的作用是不可替代的,同时在世界模型中,因果推断也能得到很好的应用。...

使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习

2023-10-31 18:02:08
使用Panda-Gym的机器臂模拟进行Deep Q-learning强化学习
强化学习(RL)是一种机器学习方法,它允许代理通过试错来学习如何在环境中表现。行为主体因采取行动导致预期结果而获得奖励,因采取行动导致预期结果而受到惩罚。随着时间的推移,代理学会采取行动,使其预期回报最大化。...

多智能体强化学习大模型初探

2023-08-28 12:01:12
多智能体强化学习大模型初探
本次分享从基础背景开始,介绍为什么强化学习需要大模型、多智能体决策大模型有哪些挑战、如何描述此类系统。此后根据提出的问题,提出动作语义网络、置换不变性与置换同变性、跨任务自动化课程学习三个核心设计的先验。...

深度Q学习网络:弥合从虚拟游戏到现实世界应用的差距

2023-08-28 12:00:40
深度Q学习网络:弥合从虚拟游戏到现实世界应用的差距
强化学习(RL)的一个重大进步是深度Q学习网络(DQN)的出现,它可以将深度学习的力量与Q学习的战略决策能力相结合。...

基于时态差分法的强化学习:Sarsa和Q-learning

2023-08-14 18:01:05
基于时态差分法的强化学习:Sarsa和Q-learning
时态差分法(Temporal Difference, TD)是一类在强化学习中广泛应用的算法,用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的强化学习问题。...

单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎

2023-08-08 18:01:26
单GPU运行数千环境、800万步模拟只需3秒,斯坦福开发超强游戏引擎
本文,来自斯坦福大学等机构的研究者,他们提出了一个名为 Madrona 的强化学习游戏引擎,可以在单个 GPU 上并行运行数千个环境,将智能体的训练时间从几小时缩减到几分钟。...

基于Gym Anytrading 的强化学习简单实例

2023-07-20 18:01:02
基于Gym Anytrading 的强化学习简单实例
近年来强化学习(RL)在算法交易领域受到了极大的关注。强化学习算法从经验中学习并基于奖励优化行动使其非常适合交易机器人。在这篇文章,我们将简单介绍如何使用Gym Anytrading环境和GME (GameStop Corp.)交易数据集构建一个基于强化学习的交易机器人。...

使用Actor-Critic的DDPG强化学习算法控制双关节机械臂

2023-05-10 18:01:44
使用Actor-Critic的DDPG强化学习算法控制双关节机械臂
在本文中,我们将介绍在 Reacher 环境中训练智能代理控制双关节机械臂,这是一种使用 Unity ML-Agents 工具包开发的基于 Unity 的模拟程序。我们的目标是高精度的到达目标位置,所以这里我们可以使用专为连续状态和动作空间设计的最先进的Deep Deterministic Poli...

训练提速17%,第四范式开源强化学习研究框架,支持单、多智能体训练

2023-05-04 18:02:54
训练提速17%,第四范式开源强化学习研究框架,支持单、多智能体训练
强化学习研究框架 OpenRL 是基于 PyTorch 开发的,已经在 GitHub 上开源。...

2023年十大开源人工智能趋势

2023-05-04 18:02:20
2023年十大开源人工智能趋势
展望 2023 年,毫无疑问,开源项目将继续塑造技术格局。开源社区在推动创新和让技术更容易为所有人所用方面发挥了重要作用。...