世界快消息！30分钟吃掉DQN算法

首页 > 交通 > > 正文

世界快消息！30分钟吃掉DQN算法

2023-06-24 04:22:02 程序员客栈

表格型方法存储的状态数量有限，当面对围棋或机器人控制这类有数不清的状态的环境时，表格型方法在存储和查找效率上都受局限，DQN的提出解决了这一局限，使用神经网络来近似替代Q表格。

(相关资料图)

本质上DQN还是一个Q-learning算法，更新方式一致。为了更好的探索环境，同样的也采用epsilon-greedy方法训练。

在Q-learning的基础上，DQN提出了两个技巧使得Q网络的更新迭代更稳定。

经验回放(Experience Replay): 使用一个经验池存储多条经验s,a,r,s"，再从中随机抽取一批数据送去训练。

固定目标(Fixed Q-Target): 复制一个和原来Q网络结构一样的Target-Q网络，用于计算Q目标值。

公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源码~

不了解强化学习的同学，推荐先阅读：Q-learning解决悬崖问题

一，准备环境

gym是一个常用的强化学习测试环境，可以用make创建环境。

env具有reset,step,render几个方法。

倒立摆问题

环境设计如下：

倒立摆问题环境的状态是无限的，用一个4维的向量表示state.

4个维度分别代表如下含义

cart位置：-2.4 ~ 2.4cart速度：-inf ~ infpole角度：-0.5 ～ 0.5 （radian）pole角速度：-inf ~ inf

智能体设计如下：

智能体的action有两种，可能的取值2种：

0，向左1，向右

奖励设计如下：

每维持一个步骤，奖励+1，到达200个步骤，游戏结束。

所以最高得分为200分。

倒立摆问题希望训练一个智能体能够尽可能地维持倒立摆的平衡。

import gym import numpy as np import pandas as pd import timeimport matplotlibimport matplotlib.pyplot as pltfrom IPython import displayprint("gym.__version__=",gym.__version__)%matplotlib inline#可视化函数：def show_state(env, step, info=""):    plt.figure(num=10086,dpi=100)    plt.clf()    plt.imshow(env.render())    plt.title("step: %d %s" % (step, info))    plt.axis("off")    display.clear_output(wait=True)    display.display(plt.gcf())    plt.close()    env = gym.make("CartPole-v1",render_mode="rgb_array") # CartPole-v0: 预期最后一次评估总分 >180（最大值是200）env.reset()action_dim = env.action_space.n   # CartPole-v0: 2obs_shape = env.observation_space.shape   # CartPole-v0: (4,)

gym.__version__= 0.26.2

env.reset()done = Falsestep = 0while not done:        action = np.random.randint(0, 1)    state,reward,done,truncated,info = env.step(action)    step+=1    print(state,reward)    time.sleep(1.0)    #env.render()     show_state(env,step=step)    #print("step {}: action {}, state {}, reward {}, done {}, truncated {}, info {}".format(\    #        step, action, state, reward, done, truncated,info))    display.clear_output(wait=True)

可以看到，没有训练智能体之前，我们采取随机动作的话，只维持了10步，倒立摆就因为倾斜角度超出范围而导致游戏结束。?

二，定义Agent

DQN的核心思想为使用一个神经网络来近似替代Q表格。

Model: 模型结构, 负责拟合函数 Q(s,a)。主要实现forward方法。

Agent:智能体，负责学习并和环境交互, 输入输出是numpy.array形式。有sample(单步采样), predict(单步预测), 有predict_batch(批量预测), compute_loss(计算损失), sync_target(参数同步)等方法。

import torch from torch import nnimport torch.nn.functional as Fimport copy class Model(nn.Module):    def __init__(self, obs_dim, action_dim):                # 3层全连接网络        super(Model, self).__init__()        self.obs_dim = obs_dim        self.action_dim = action_dim         self.fc1 = nn.Linear(obs_dim,32)        self.fc2 = nn.Linear(32,16)        self.fc3 = nn.Linear(16,action_dim)    def forward(self, obs):        # 输入state，输出所有action对应的Q，[Q(s,a1), Q(s,a2), Q(s,a3)...]        x = self.fc1(obs)        x = torch.tanh(x)        x = self.fc2(x)        x = torch.tanh(x)        Q = self.fc3(x)        return Q    model = Model(4,2)model_target = copy.deepcopy(model)model.eval()model.forward(torch.tensor([[0.2,0.1,0.2,0.0],[0.3,0.5,0.2,0.6]]))model_target.eval() model_target.forward(torch.tensor([[0.2,0.1,0.2,0.0],[0.3,0.5,0.2,0.6]]))

tensor([[-0.1148,  0.0068],        [-0.1311,  0.0315]], grad_fn=)

import torch from torch import nn import copy class DQNAgent(nn.Module):    def __init__(self, model,         gamma=0.9,        e_greed=0.1,        e_greed_decrement=0.001        ):        super().__init__()                self.model = model        self.target_model = copy.deepcopy(model)          self.gamma = gamma # reward 的衰减因子，一般取 0.9 到 0.999 不等                self.e_greed = e_greed  # 有一定概率随机选取动作，探索        self.e_greed_decrement = e_greed_decrement  # 随着训练逐步收敛，探索的程度慢慢降低                self.global_step = 0        self.update_target_steps = 200 # 每隔200个training steps再把model的参数复制到target_model中                    def forward(self,obs):        return self.model(obs)        @torch.no_grad()    def predict_batch(self, obs):        """ 使用self.model网络来获取 [Q(s,a1),Q(s,a2),...]        """        self.model.eval()        return self.forward(obs)            #单步骤采样        def sample(self, obs):        sample = np.random.rand()  # 产生0~1之间的小数        if sample < self.e_greed:            action = np.random.randint(self.model.action_dim)  # 探索：每个动作都有概率被选择        else:            action = self.predict(obs)  # 选择最优动作        self.e_greed = max(            0.01, self.e_greed - self.e_greed_decrement)  # 随着训练逐步收敛，探索的程度慢慢降低        return action        #单步骤预测       def predict(self, obs):  # 选择最优动作        obs = np.expand_dims(obs, axis=0)        tensor = torch.tensor(obs,dtype=torch.float32).to(self.model.fc1.weight.device)        pred_Q = self.predict_batch(tensor)        action = torch.argmax(pred_Q,1,keepdim=True).cpu().numpy()          action = np.squeeze(action)        return action            def sync_target(self):        """ 把 self.model 的模型参数值同步到 self.target_model        """        self.target_model.load_state_dict(self.model.state_dict())        def compute_loss(self, obs, action, reward, next_obs, done):                # 每隔200个training steps同步一次model和target_model的参数        if self.global_step % self.update_target_steps == 0:            self.sync_target()        self.global_step += 1                        # 从target_model中获取 max Q" 的值，用于计算target_Q        self.target_model.eval()        next_pred_value = self.target_model(next_obs)        best_value = torch.max(next_pred_value, dim = 1,keepdim=True).values         target = reward.reshape((-1,1)) + (            torch.tensor(1.0) - done.reshape(-1,1)) * self.gamma * best_value                #print("best_value",best_value.shape)        #print("target",target.shape)        # 获取Q预测值        self.model.train()        pred_value = self.model(obs)          action_onehot = F.one_hot(action.reshape(-1),                num_classes = self.model.action_dim).float()        prediction = torch.sum(pred_value*action_onehot,dim= 1,keepdim=True)                #print("pred_value",pred_value.shape)        #print("action_onehot",action_onehot.shape)        #print("prediction",prediction.shape)                # 计算 Q(s,a) 与 target_Q的均方差，得到loss        loss = F.smooth_l1_loss(target,prediction)        return loss

agent = DQNAgent(model,gamma=0.9,e_greed=0.1,                 e_greed_decrement=0.001)

agent.predict_batch(torch.tensor([[2.0,3.0,4.0,2.0],[1.0,2.0,3.0,4.0]]))

tensor([[-0.1596, -0.0481],        [-0.0927,  0.0318]])

loss = agent.compute_loss(torch.tensor([[2.0,3.0,4.0,2.0],[1.0,2.0,3.0,4.0],[1.0,2.0,3.0,4.0]]),          torch.tensor([[1],[0],[0]]),          torch.tensor([[1.0],[1.0],[1.0]]),         torch.tensor([[2.0,3.0,0.4,2.0],[1.0,2.0,3.0,4.0],[1.0,2.0,3.0,4.0]]),         torch.tensor(0.9))print(loss)

tensor(0.5757, grad_fn=)

三，训练Agent

import randomimport collectionsimport numpy as npLEARN_FREQ = 5 # 训练频率，不需要每一个step都learn，攒一些新增经验后再learn，提高效率MEMORY_SIZE = 2048    # replay memory的大小，越大越占用内存MEMORY_WARMUP_SIZE = 512  # replay_memory 里需要预存一些经验数据，再开启训练BATCH_SIZE = 128   # 每次给agent learn的数据数量，从replay memory随机里sample一批数据出来

#经验回放class ReplayMemory(object):    def __init__(self, max_size):        self.buffer = collections.deque(maxlen=max_size)    # 增加一条经验到经验池中    def append(self, exp):        self.buffer.append(exp)    # 从经验池中选取N条经验出来    def sample(self, batch_size):        mini_batch = random.sample(self.buffer, batch_size)        obs_batch, action_batch, reward_batch, next_obs_batch, done_batch = [], [], [], [], []        for experience in mini_batch:            s, a, r, s_p, done = experience            obs_batch.append(s)            action_batch.append(a)            reward_batch.append(r)            next_obs_batch.append(s_p)            done_batch.append(done)        return np.array(obs_batch).astype("float32"), \            np.array(action_batch).astype("int64"), np.array(reward_batch).astype("float32"),\            np.array(next_obs_batch).astype("float32"), np.array(done_batch).astype("float32")    def __len__(self):        return len(self.buffer)

from torch.utils.data import IterableDataset,DataLoader  class MyDataset(IterableDataset):    def __init__(self,env,agent,rpm,stage="train",size=200):        self.env = env        self.agent = agent         self.rpm = rpm if stage=="train" else None        self.stage = stage        self.size = size             def __iter__(self):        obs,info = self.env.reset() # 重置环境, 重新开一局（即开始新的一个episode）        step = 0        batch_reward_true = [] #记录真实的reward        while True:            step += 1            action = self.agent.sample(obs)             next_obs, reward, done, _, _ = self.env.step(action) # 与环境进行一个交互            batch_reward_true.append(reward)                        if self.stage=="train":                self.rpm.append((obs, action, reward, next_obs, float(done)))                if (len(rpm) >MEMORY_WARMUP_SIZE) and (step % LEARN_FREQ == 0):                    #yield batch_obs, batch_action, batch_reward, batch_next_obs,batch_done                    yield self.rpm.sample(BATCH_SIZE),sum(batch_reward_true)                    batch_reward_true.clear()                        else:                obs_batch = np.array([obs]).astype("float32")                action_batch = np.array([action]).astype("int64")                reward_batch = np.array([reward]).astype("float32")                next_obs_batch = np.array([next_obs]).astype("float32")                done_batch = np.array([float(done)]).astype("float32")                batch_data = obs_batch,action_batch,reward_batch,next_obs_batch,done_batch                yield batch_data,sum(batch_reward_true)                batch_reward_true.clear()                            if self.stage =="train":                next_action = self.agent.sample(next_obs) # 训练阶段使用探索策略            else:                next_action = self.agent.predict(next_obs) # 验证阶段使用模型预测结果             action = next_action            obs = next_obs               if done:                if self.stage=="train" and len(self.rpm)
#ReplayMemory预存数据while len(ds_train.rpm)
1347167272511521
def collate_fn(batch):    samples,rewards = [x[0] for x in batch],[x[-1] for x in batch]     samples = [torch.from_numpy(np.concatenate([x[j] for x in samples])) for j in range(5)]     rewards = torch.from_numpy(np.array([sum(rewards)]).astype("float32"))    return samples,rewards dl_train = DataLoader(ds_train,batch_size=1,collate_fn=collate_fn)dl_val = DataLoader(ds_val,batch_size=1,collate_fn=collate_fn)
for batch in dl_train:    break
import sys,datetimefrom tqdm import tqdmimport numpy as npfrom accelerate import Acceleratorfrom torchkeras import KerasModelimport pandas as pd from copy import deepcopyclass StepRunner:    def __init__(self, net, loss_fn, accelerator=None, stage = "train", metrics_dict = None,                  optimizer = None, lr_scheduler = None                 ):        self.net,self.loss_fn,self.metrics_dict,self.stage = net,loss_fn,metrics_dict,stage        self.optimizer,self.lr_scheduler = optimizer,lr_scheduler        self.accelerator = accelerator if accelerator is not None else Accelerator()        def __call__(self, batch):                samples,reward = batch        #torch_data = ([torch.from_numpy(x) for x in batch_data])        loss = self.net.compute_loss(*samples)                #backward()        if self.optimizer is not None and self.stage=="train":            self.accelerator.backward(loss)            if self.accelerator.sync_gradients:                self.accelerator.clip_grad_norm_(self.net.parameters(), 1.0)            self.optimizer.step()            if self.lr_scheduler is not None:                self.lr_scheduler.step()            self.optimizer.zero_grad()                                    #losses （or plain metric）        step_losses = {self.stage+"_reward":reward.item(),                        self.stage+"_loss":loss.item()}                #metrics (stateful metric)        step_metrics = {}        if self.stage=="train":            if self.optimizer is not None:                step_metrics["lr"] = self.optimizer.state_dict()["param_groups"][0]["lr"]            else:                step_metrics["lr"] = 0.0        return step_losses,step_metrics    class EpochRunner:    def __init__(self,steprunner,quiet=False):        self.steprunner = steprunner        self.stage = steprunner.stage        self.accelerator = steprunner.accelerator        self.net = steprunner.net        self.quiet = quiet            def __call__(self,dataloader):        dataloader.agent = self.net         n = dataloader.size  if hasattr(dataloader,"size") else len(dataloader)        loop = tqdm(enumerate(dataloader,start=1),                     total=n,                    file=sys.stdout,                    disable=not self.accelerator.is_local_main_process or self.quiet,                    ncols=100                   )        epoch_losses = {}        for step, batch in loop:             if step
keras_model = KerasModel(net= agent,loss_fn=None,        optimizer=torch.optim.Adam(agent.model.parameters(),lr=1e-2))dfhistory = keras_model.fit(train_data = dl_train,    val_data=dl_val,    epochs=600,    ckpt_path="checkpoint.pt",    patience=100,    monitor="val_reward",    mode="max",    callbacks=None,    plot= True,    cpu=True)
四，评估Agent 
# 评估 agent, 跑 3 次，总reward求平均def evaluate(env, agent, render=False):    eval_reward = []    for i in range(2):        obs,info = env.reset()        episode_reward = 0        step=0        while step<300:            action = agent.predict(obs)  # 预测动作，只选最优动作            obs, reward, done, _, _ = env.step(action)            episode_reward += reward            if render:                show_state(env,step,info="reward="+str(episode_reward))            if done:                break            step+=1        eval_reward.append(episode_reward)    return np.mean(eval_reward)
#直观显示动画env = gym.make("CartPole-v1",render_mode="rgb_array") evaluate(env, agent, render=True)
可以看到，训练完成之后，我们的agent已经变得非常的智能了，能够维持倒立摆的平衡超过200s。?
288.5
五，保存Agent 
torch.save(agent.state_dict(),"dqn_agent.pt")
万水千山总是情，点个在看行不行？??
本文notebook源码，以及更多有趣范例，可在公众号算法美食屋后台回复关键词：torchkeras，获取~

百事通！国际油价21日上涨

中国女篮训练师晒李梦照片，笑容满面剪刀手比耶，看上去心情不错 全球播资讯

98年生的株洲妹子赚钱带爷爷奶奶坐飞机、看海

世界关注：英国伦敦股市《金融时报》100种股票平均价格指数21日下跌

端午旅游 不忘文明-天天聚看点

证监会更新证券公司白名单 31家入榜

洪涝灾害后的健康防护小知识

【新视野】嘉银金科美股跌10.75%

世界最资讯丨“粽”享精彩！山东博物馆一系列丰富展览来袭

每日热讯!2022~2023年云南养老金调整细则方案消息和云南养老金上调最新消息（全文）

联合国发布全球贸易报告：今年第一季度全球商品和服务贸易反弹

焦点快报!abcd级车怎么区分？瞬间懂了！

河北省与北京首批疏解高校开展协同创新合作

因定增相关事项 陆家嘴拟召开“21陆金开MTN001”持有人会议_当前关注

青春不“毒”行！这堂法治课带同学们“打卡”禁毒园地

【环球新要闻】家居丨致欧科技登陆深交所 总市值约106亿元

解码文化自信的城市样本｜江苏扬州：守护记忆 传承文脉

天天看点：7月1日起青藏集团公司列车调图 48对列车调整变化

后备厢空间有大幅提升 全新奔驰E级旅行版官图发布-当前看点

德国反垄断机构：谷歌汽车服务存在反竞争嫌疑，将禁止相关行为-今日播报

当前要闻：360搜索下面怎么关闭 360搜索栏下方常搜怎么恢复

广东一居民已婚期间被冒名再次登记结婚，法院发出司法建议

端午假期全国口岸将迎出入境客流高峰 这些口岸客流持续高位运行

阿迪达斯首席执行官：中国文化元素对产品设计启发越来越显著_世界热头条

端午假期首日旅游成绩单出炉，你参与了吗

天天最新：今日菜价网 今日菜价图片

焦点观察：哥们融入这么快？猛龙新秀迪克转发和吉祥物“妖娆”合照

天津推出四项措施助力航运金融：对融资租赁公司相关业务给予融资总量2%奖励|世界百事通

奇安信获评NVDB通用网络产品安全漏洞库第一批技术支撑单位|全球独家

世界最资讯丨恒大：677个项目已复工，恒驰汽车交付超1000辆

北交所龙虎榜|苏轴股份今日大涨29.85%，买一净买入637.27万元

体外心脏震波治疗

压哨截胡！詹皇合伙人致电多队，却被雄鹿抢下，湖人球迷被打脸-天天速递

每日精选：2人被查！

模型 1/35 苏联红军 KV-1E 重型坦克|看点

勤俭节约的古诗（勤俭节约的古诗文）

【组图】尼山剪影：端午时节 游人如织

港股开盘下跌，招行跌2%

考古界发现秦桧遗嘱，岳飞不是秦桧害死的？这到底是怎么回事 环球微动态

快资讯：上交所：万达商业35.01亿元ABS项目状态更新至“已反馈”

郭宗海专题调研“天府粮仓”丘区样板推进情况-全球报资讯

高质量发展调研行丨罗屿：崛起东南沿海最大铁矿港 观速讯

天天微资讯！理性看待人民币汇率波动

世界观焦点：世纪怎么算的用年_世纪怎么算

每日快报!郭富城赌马赢了200万后，事业心爆棚充满干劲，出席活动抿嘴偷笑

胃苦口苦什么原因(口苦是什么原因)

每日报道：人均户均资产力压“民富浙”，江苏居民财富值真的这么强？来看看

焦点速看：国家金融监督管理总局局长李云泽：练好穿透监管“绣花工” 打好风险处置“组合拳”

聚焦：大众集团计划至2030年销售回报率目标提升至9%-11%

王者荣耀在全球AppStore和GooglePlay的收入达到2.37亿美元

外国专家：中国劝和促谈展现大国担当 美西方相形见绌 热文

对话老乡鸡束小龙：从工具层面开始数字化进阶

中国气象局启动高温四级应急响应

持续高温炙烤，高温津贴应及时“送清凉”

世界动态:“热身”到开演前最后一刻，传奇钢琴家波格莱里奇重返上海诚意满满

王俊凯做客向往的生活，化身做饭小能手|环球播资讯

13年：“摩托警务”服务，有种莫名的幸福和感动

微软：Xbox Series X本身就是中期升级版主机

新动态：全职高手千机伞制作_全职高手千机伞

2023纵览高招会丨河北中医药大学：2023年招生计划为1820人，河北省内计划招生1366人

庆余年导演说演员应该杜绝文盲：演员是学者

新消息丨证监会公布最新一批证券公司白名单！五家券商最新入榜，四家被调出

2023全球智博会即将在苏州开幕|环球看点

世界速读：促进房地产市场平稳健康发展，“临八条”值得期待

张文宏称新冠病毒难再突破出奥密克戎“家族” 疫苗有一定作用

事关子女上学，西安最新明确！-全球今热点

经开区企业天博检验顺利通过ISO15189实验室认可现场复评审

网友评《吹响小山河》内容空洞缺乏深度！《吹响小山河》短片讲的什么？

热身赛：中国女篮输15分＋7连败合计输149分 亚洲杯渴望冲冠|全球新资讯

环球讯息：金融诈骗的种类有哪些? 金融诈骗怎么量刑? 世界资讯

入选全国十大出游目的地 端午游武汉订单同比增长超11倍-全球速看料

4年没回家！喀喇昆仑战士一口吃出妈妈包的粽子……

【新要闻】抖音：无相关资质认证用户，不得使用具有误导性的资讯类账号信息

无视小米13UItra，执意要买OPPOFindX6Pro，四大体验让人印象深刻|世界播资讯

环球关注：浓情端午菜角香 ——安阳市南关小学我们的节日端午主题活动

2名中国公民在美被定罪，外交部：中方坚决反对

2023年空气预热器概念主要利好哪些股票？（6月23日） 环球精选

特写：在台湾感受端午的节日韵味|环球观天下

意外加息50基点！英国央行会比美联储走得更远么？ 环球最资讯

纯棉阻燃剂商品报价动态（2023-06-23） 播报

中国女篮训练师晒李梦照片，笑容满面剪刀手比耶，看上去心情不错全球播资讯

端午旅游不忘文明-天天聚看点

因定增相关事项陆家嘴拟召开“21陆金开MTN001”持有人会议_当前关注

【环球新要闻】家居丨致欧科技登陆深交所总市值约106亿元

解码文化自信的城市样本｜江苏扬州：守护记忆传承文脉

后备厢空间有大幅提升全新奔驰E级旅行版官图发布-当前看点

端午假期全国口岸将迎出入境客流高峰这些口岸客流持续高位运行

天天最新：今日菜价网今日菜价图片

【组图】尼山剪影：端午时节游人如织

考古界发现秦桧遗嘱，岳飞不是秦桧害死的？这到底是怎么回事环球微动态

高质量发展调研行丨罗屿：崛起东南沿海最大铁矿港观速讯

外国专家：中国劝和促谈展现大国担当美西方相形见绌热文

热身赛：中国女篮输15分＋7连败合计输149分亚洲杯渴望冲冠|全球新资讯

入选全国十大出游目的地端午游武汉订单同比增长超11倍-全球速看料

2023年空气预热器概念主要利好哪些股票？（6月23日）环球精选

意外加息50基点！英国央行会比美联储走得更远么？环球最资讯

纯棉阻燃剂商品报价动态（2023-06-23）播报

美海军少将：“泰坦”潜水器已内爆 5名失踪乘客已遇难当前通讯

校方回应女子花30万拍短片拒领三等奖评委老师很专业

*ST慧辰根据中登公司定期下发的股东名册，截至2023年6月20日，公司股票持有人数为4,339

蔚来手机呼之欲出车企要抢华为小米的地盘？

世界快播：“云上凉夏风韵羌乡”——2023中国非遗茂县瓦尔俄足节圆满落幕

环球热议:汇安成长优选混合增聘基金经理单柏霖柳预才离任

杏坛情深桃李芬芳郑州11中举办退休教师座谈会_每日精选

中国女篮训练师晒李梦照片，笑容满面剪刀手比耶，看上去心情不错全球播资讯

2023成都大运会排球比赛时间+场馆+赛程今日观点

焦点关注：莲湖区：500名教师兼任急救员实现校园急救员全覆盖

安全生产宣传筑牢安全防线——金水区东风路街道开展安全生产宣传活动-世界快讯

工业设计专业排名前十的大学有哪些？每日速讯

AI会消灭/创造更多人类工作？虚拟世界能否让人更幸福？张勇对话多位诺奖得主全球播报

端午旅游不忘文明-天天聚看点

天天新资讯：“粽”情一下趣玩端午