Q-learning解决悬崖问题

首页 > 热点 > > 正文

Q-learning解决悬崖问题

2023-06-22 22:07:33 程序员客栈

Q-learning是一个经典的强化学习算法，是一种基于价值(Value-based)的算法，通过维护和更新一个价值表格(Q表格)进行学习和预测。

(资料图片)

Q-learning是一种off-policy的策略，也就是说，它的行动策略和Q表格的更新策略是不一样的。

行动时，Q-learning会采用epsilon-greedy的方式尝试多种可能动作。

更新时，Q-learning会采用潜在收益最大化的动作进行价值更新。

总体来说，Q-learning是一个非常勇敢的策略，在有限动作和有限状态情况下，它能够收敛找到全局最优策略。

公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源代码~

〇，强化学习基本概念 1, 环境(env)和智能体(agent)

在第n步，agent处于状态 state(n)中，然后采取行动action(n)，env给agent奖励reward(n+1)，同时agent的状态变成 state(n+1)

---reward(n+1),state(n+1)-->envagent(state)<------action(n)----------

以我们玩一个俄罗斯方块游戏为例。

环境env就是这个游戏背后的程序，智能体agent就是玩家。

假设现在是第n步，state(n)就是目前游戏所处的状态，可以表示为一个矩阵，也就是游戏界面每个格子的明暗状态。

我们可以采取某个 action(n) (向左，向右，向下，变形)。

然后我们会获得一个奖励reward(n)，即得分。奖励很多时候是稀疏的，即大部分时候为0，操作很多步才有一个不为0的奖励。

同时游戏界面发生变化，状态由 state(n) 变成 state(n+1)。

2, 马尔科夫交互链

env和agent交互作用若干个步骤，到达结束状态，通常叫做一个episode(片段)。

在俄罗斯方块游戏的例子中，一局完整的游戏构成一个马尔科夫交互链，叫做一个episode.

之所以叫做马尔科夫交互链，是因为这个过程满足马尔科夫假设。

第n+1步骤的状态state(n+1)和奖励reward(n+1)只和第n步骤的状态stage(n)和action(n)有关，而与之前的状态和action无关。

马尔科夫假设要求我们在设计state和action的时候，要考虑到所有相关变量。

并且，只要设计出合理的state变量和action变量，任何游戏都可以表示为这样一个马尔科夫交互链。

3, 奖励折现公式

为了衡量每个步骤中action的价值，需要将该步骤之后的奖励，以及未来的全部奖励按照类似金融学中的折现算法求和。

在俄罗斯方块游戏的例子中，一个操作action的价值，不仅跟这个操作完成后立刻获得的奖励reward有关，还要考虑到这个操作的长远影响。

但这种长远影响不太好精确地计算，因为后面获得的奖励，不仅跟当前的action有关，还跟后面的操作有关，所以跟当前操作的相关性是小于1的。

作为简化起见，我们通过类似金融学中现金流折现的方式将未来的奖励全部折算到当前步骤。折算因子gamma一般取值在0.9~1.0之间。

4, epsilon-greedy 学习策略

训练时使用epsilon探索，预测时使用greedy贪心。

训练阶段: 以一定epsilon概率选择随机动作，以（1-epsilon）选择最大化Q(s,a)的动作。

预测阶段: 贪心策略，直接选择最大化Q(s,a)的动作。

为了让模型去探索更优策略，我们在训练过程中会允许模型以一定的概率去实施随机动作，以便评估不同动作的价值。

这样也能够让模型对状态动作空间进行更分散的采样，学到的结果也会更加鲁棒。

但在测试过程，为了获得更好的结果，我们应该采用预期价值最大的动作。

5, Q表格软更新

奖励折现公式对每个action的价值的计算方法是一种粗糙的估计算法。

不同的step或者不同的episode中，按照奖励折现公式对相同state下相同action价值的评估的结果可能差异很大。

为了保持学习过程的稳定性，让Q值不会过分受到某次评估的影响，我们采用一种软更新的方式。

也就是我们在更新Q表格的时候，只让Q值朝着折现公式计算结果靠近一点点(缩小差值)，而不是直接调整为折现公式的计算结果。

这样，我们最终的Q表格中action的价值结果相当是许多次不同episode不同step下奖励折现公式计算结果的某种平均值。

一，准备环境

gym是一个常用的强化学习测试环境，可以用make创建环境。

env具有reset,step,render几个方法。

悬崖问题

环境设计如下：

环境一共有48个state状态。

其中T为目标位置，到达目标位置游戏结束。

10个用C表示的为悬崖，掉入悬崖会拉回到起始位置。

智能体设计如下：

智能体有4种动作action，0表示往上，1往右，2往下，3往左。

reward设计如下：

智能体每走一步都会有-1的reward。

这个问题希望训练一个能够尽可能快的从起始位置到达目标位置T的智能体Agent。

importgymimportnumpyasnpimporttimeimportmatplotlibimportmatplotlib.pyplotaspltfromIPythonimportdisplayprint("gym.__version__=",gym.__version__)%matplotlibinline#可视化函数：defshow_state(env,step,info=""):plt.figure(num=0,dpi=180)plt.clf()plt.imshow(env.render())plt.title("Step:%d%s"%(step,info))plt.axis("off")display.clear_output(wait=True)display.display(plt.gcf())env=gym.make("CliffWalking-v0",render_mode="rgb_array")#0up,1right,2down,3leftenv.reset()forstepinrange(20):time.sleep(0.2)action=np.random.randint(0,4)obs,reward,done,truncated,info=env.step(action)#env.render()show_state(env,step=step)#print("step{}:action{},obs{},reward{},done{},truncated{},info{}".format(\#step,action,obs,reward,done,truncated,info))display.clear_output(wait=True)

我们先来看看没有训练模型，按照随机的方式会怎么走。

二，定义Agent

importtorchfromtorchimportnnclassQAgent(nn.Module):def__init__(self,obs_n,act_n,learning_rate=0.01,gamma=0.9,e_greed=0.1):super().__init__()self.act_n=act_n#动作维度，有几个动作可选self.lr=learning_rate#学习率self.gamma=gamma#reward的衰减率self.epsilon=e_greed#按一定概率随机选动作self.Q=nn.Parameter(torch.zeros((obs_n,act_n)),requires_grad=False)#根据输入观察值，采样输出的动作值，带探索defsample(self,obs):ifnp.random.uniform(0,1)<(1.0-self.epsilon):#根据table的Q值选动作action=self.predict(obs)else:action=np.random.choice(self.act_n)#有一定概率随机探索选取一个动作returnaction#根据输入观察值，预测输出的动作值defforward(self,obs):Q_list=self.Q[obs,:]maxQ=Q_list.max()action_list=torch.where(Q_list==maxQ)[0].tolist()#maxQ可能对应多个actionaction=np.random.choice(action_list)returnaction@torch.no_grad()defpredict(self,obs):self.eval()returnself.forward(obs)#学习方法，也就是更新Q-table的方法deflearn(self,obs,action,reward,next_obs,done):"""on-policyobs:交互前的obs,s_taction:本次交互选择的action,a_treward:本次动作获得的奖励rnext_obs:本次交互后的obs,s_t+1next_action:根据当前Q表格,针对next_obs会选择的动作,a_t+1done:episode是否结束"""predict_Q=self.Q[obs,action]ifdone:target_Q=reward#没有下一个状态了else:target_Q=reward+self.gamma*self.Q[next_obs,:].max()#Q-learningself.Q[obs,action]+=self.lr*(target_Q-predict_Q)#修正q

我们创建一下env和agent.

#使用gym创建悬崖环境env=gym.make("CliffWalking-v0")#0up,1right,2down,3left#创建一个agent实例，输入超参数agent=QAgent(obs_n=env.observation_space.n,act_n=env.action_space.n,learning_rate=0.1,gamma=0.9,e_greed=0.1)

三，训练Agent

下面我们将套用torchkeras的训练模版来对Agent进行训练。

由于强化学习问题与常用的监督学习范式有很大的差异，所以我们对torchkeras的训练模版在

StepRunner, EpochRunner这2个层级上都有少量的修改。

classDataLoader:def__init__(self,env,agent,stage="train"):self.env=envself.agent=agentself.stage=stagedef__iter__(self):obs,info=self.env.reset()#重置环境,重新开一局（即开始新的一个episode）action=self.agent.sample(obs)#根据算法选择一个动作whileTrue:next_obs,reward,done,_,_=self.env.step(action)#与环境进行一个交互ifself.stage=="train":next_action=self.agent.sample(next_obs)#训练阶段使用探索-利用策略else:next_action=self.agent.predict(next_obs)#验证阶段使用模型预测结果yieldobs,action,reward,next_obs,doneaction=next_actionobs=next_obsifdone:breakdl_train=DataLoader(env,agent,stage="train")dl_train.size=1000dl_val=DataLoader(env,agent,stage="val")dl_val.size=200

importsys,datetimefromtqdmimporttqdmimportnumpyasnpfromaccelerateimportAcceleratorfromtorchkerasimportKerasModelimportpandasaspdfromtorchkeras.utilsimportis_jupyter,colorfulfromcopyimportdeepcopyclassStepRunner:def__init__(self,net,loss_fn,accelerator=None,stage="train",metrics_dict=None,optimizer=None,lr_scheduler=None):self.net,self.loss_fn,self.metrics_dict,self.stage=net,loss_fn,metrics_dict,stageself.optimizer,self.lr_scheduler=optimizer,lr_schedulerself.accelerator=acceleratorifacceleratorisnotNoneelseAccelerator()def__call__(self,batch):obs,action,reward,next_obs,done=batch#backward()ifself.stage=="train":self.net.learn(obs,action,reward,next_obs,done)#losses（orplainmetric）step_losses={self.stage+"_reward":reward,self.stage+"_done":1.0ifdoneelse0.0}#metrics(statefulmetric)step_metrics={}ifself.stage=="train":step_metrics["lr"]=self.net.lrreturnstep_losses,step_metricsclassEpochRunner:def__init__(self,steprunner,quiet=False):self.steprunner=steprunnerself.stage=steprunner.stageself.accelerator=steprunner.acceleratorself.net=steprunner.netself.quiet=quietdef__call__(self,dataloader):dataloader.agent=self.netn=dataloader.sizeifhasattr(dataloader,"size")elselen(dataloader)loop=tqdm(enumerate(dataloader,start=1),total=n,file=sys.stdout,disable=notself.accelerator.is_local_main_processorself.quiet,ncols=100)epoch_losses={}forstep,batchinloop:step_losses,step_metrics=self.steprunner(batch)step_log=dict(step_losses,**step_metrics)fork,vinstep_losses.items():epoch_losses[k]=epoch_losses.get(k,0.0)+vifstep_log[self.stage+"_done"]<1andstep0.5orstep==n:epoch_metrics=step_metricsepoch_metrics.update({self.stage+"_"+name:metric_fn.compute().item()forname,metric_fninself.steprunner.metrics_dict.items()})epoch_losses={k:vfork,vinepoch_losses.items()}epoch_log=dict(epoch_losses,**epoch_metrics)epoch_log[self.stage+"_step"]=steploop.set_postfix(**epoch_log)forname,metric_fninself.steprunner.metrics_dict.items():metric_fn.reset()loop.close()else:breakreturnepoch_logKerasModel.StepRunner=StepRunnerKerasModel.EpochRunner=EpochRunner

keras_model=KerasModel(net=agent,loss_fn=None)dfhistory=keras_model.fit(train_data=dl_train,val_data=dl_val,epochs=600,ckpt_path="checkpoint.pt",patience=500,monitor="val_reward",mode="max",callbacks=None,quiet=True,plot=True,cpu=True)

dfhistory["val_reward"].max()

-13.0

keras_model.load_ckpt("checkpoint.pt")agent=keras_model.net

四，测试Agent

deftest_agent(env,agent):total_reward=0obs,info=env.reset()step=0whileTrue:action=agent.predict(obs)#greedynext_obs,reward,done,_,_=env.step(action)total_reward+=rewardobs=next_obstime.sleep(0.5)show_state(env,step)step+=1ifdone:breakplt.close()returntotal_reward

#全部训练结束，查看算法效果env=gym.make("CliffWalking-v0",render_mode="rgb_array")#0up,1right,2down,3lefttest_reward=test_agent(env,agent)print("testreward=%.1f"%(test_reward))

test reward = -13.0

可以看到，训练完成后，这个agent非常机智地在悬崖边上走了一个最优路线，但却没有掉到悬崖里去。

五，保存Agent

torch.save(keras_model.net.state_dict(),"best_ckpt.pt")

公众号算法美食屋后台回复关键词：torchkeras，获取本文notebook源代码以及更多有趣范例。

纽约商品交易所黄金期货市场8月黄金期价21日下跌

月经推迟半个月还没来怎样解决_月经推迟半个月还没来怎么回事

铁树养一对还是养一颗（铁树养一棵好不好）_天天新视野

大庆全切双眼皮哪家医院好 不妨来看一下

主题教育市委巡回指导十三组推动所指导单位务实调研，以实干破难题、解民忧——为了这场座谈会 指导组下沉走访半个月|热点在线

中国古代著名的射箭名手​养由基

环球视讯！垧与亩的换算_垧亩

中建二局举办粤港澳大湾区建设劳动和技能竞赛总结推进会-每日快讯

每日速递：号称不降价的蔚来，突然全系降价3万，现在适不适合出手？

乘势而起，汉得助力产业“数智化”改造升级

老款“焊门将”大促！Redmi K50 Pro 8GB+128GB低至2099元_观焦点

统一股份： 我们已经开发出了风电行业润滑的产品，正在推进相关技术认证和产品准入工作

实时：晨光新材： 公司烯丙基缩水甘油醚产品已取得江西省应急管理厅发布的《安全生产许可证》

最靠谱的三个星座，是不多言的行动派，还是善解人意的浪漫派？ 天天亮点

申请国际外观专利

全球热消息：金牌健康教育讲师大赛 打造健康科普特色品牌

粽香飘端午 文化代代传——总台记者端午节来临之际探访曼谷唐人街|环球短讯

多点超市app下载物美（多点超市）

天天快报!2023年执业药师《中药综》精选试题及答案（1）

【全球独家】小马宋给眷茶上眼药？

秦钰恒：黄金底部反复不要空，横盘高位1945空|最新

搭建政企沟通平台 黑龙江漠河市召开服务民营经济高质量发展政企沙龙恳谈会-最资讯

清风头条丨常德市畜牧水产事务中心：讲授廉政党课 护航养殖业高质量发展 天天简讯

细胞培育鸡肉美国获批上市：目前只销往餐厅

世界播报:AOS粉商品报价动态（2023-06-22）

现场视频！央视记者实地探访宁夏银川烧烤店爆炸事故现场：店内一片狼藉，桌面还有未吃完的食物

普京称乌军“损失惨重” 泽连斯基“承认”反攻慢于预期-环球精选

活下去的理由有哪些-全球新视野

当前观察：炎亚纶一手好牌打烂！出道以来最红的一天，是他人生最不堪的一天

因为编的故事太离谱，知乎创始人被大佬实名举报

当前视点！伊朗总统莱希发表电视讲话 强调愿意同地区国家发展关系

过户车买保险是不是要贵点 情况是这样的 热点评

我国最大海上油田累产原油突破5亿吨

纯白网络电台在线收听_纯白网络电台 全球热议

奋战一“夏”！中国海诚中标系列项目-全球热议

五角大楼丑闻再发酵：对乌克兰的军事援助，“多算”了62亿美元 世界速读

2023广东养老金调整方案公布最新消息（附2022~2023年广东养老金调整细则）

节日消费升温、出行热度高涨 数字里看端午假期

昆仑万维的“离婚概念股”火了，投资者该怎么办？

22名老年游客遭遇暴雪被困可可西里 消防紧急救援

女子离婚娘家人放鞭炮订蛋糕庆祝 基本信息讲解

什么是世卿世禄制和宗法制？有什么区别？

AMD Radeon RX 7900 XTX 显卡跌破 900 美元，7900 XT 降至 719 美元|前沿热点

每日速读!带着妈妈去支教的“00后”团代表刘羲檬：把爱传递下去

东营市河口区二手车（东营市河口区二手车万元以下）

始于农不止于农，崇明诚邀世界级选手共建农业硅谷

2023端午档新片票房破亿！倪妮悬疑新作《消失的她》领跑-天天即时

会意字图片展示大全 会意字图片-全球速递

iPhone新品量产在即，富士康多个园区持续扩大招工，“造车”计划也提速

包粽子、挂艾草、五色绳，北方的端午这样过

应急管理部公布一批“一案双罚”典型执法案例|天天看点

6月21日基金净值：南方阿尔法混合A最新净值0.5239，跌1.73%_世界视讯

川大地铁事件学生被留校留党察看 这样处理结果合适吗？

工商银行信用卡逾期会被上门催收吗？逾期后果有哪些？ 天天热讯

Flakked更推：Jankos放屁超大声 像马里奥卡丁车有人用香蕉拳打你

胃苦口苦什么原因(口苦是什么原因)

【聚看点】阿雅的无妄之灾，吴佩慈为什么能豁免？

石药集团：据股份奖励计划购买6856.9万港元股份

七月半是什么时候烧纸钱 七月半是什么时候

注意！威创股份将于7月12日召开股东大会

【环球快播报】益民创新优势

预计年内上市 奇瑞TJ-1官方定名探索06 全球微头条

大众汽车将给予旗下品牌更大自主权以推动利润增长

天天消息！南国置业：南国创新涉嫌行贿案，正处于审查起诉阶段

《勇者斗恶龙 怪兽篇3》新作公开！12月1日发售！

国恩控股(08121.HK)年度亏损扩大至590万港元 毛利率21.28%|今亮点

世界热推荐：奶茶店成本及利润预算表（奶茶店成本预算表）

泰康人寿永州中支诚信赔付40万，为罹患肿瘤幼儿护航-全球热讯

天天观焦点：麻辣鲜香，酸爽可口！酸辣粉食谱杂锦，最佳开胃良药，在家轻松做

快资讯丨“粽味儿”飘香～顺义区各大商超备货足价格稳

破禁果最新作品_破禁果

全球实时：羊肉骨头汤怎么炖最好喝?

全球实时：老板过生日该怎么送礼？来点创意，好莱坞主题情侣服装最适合女四十多岁！

时隔一年再更新！券商重要名单发布 5家新进4家退出 上榜将获诸多便利

实用的温暖的晚安心语摘录

经历短期波动后，债市再度迎来微妙时刻

孙杨:从未放弃说不游了 做好自己该做的事情_每日精选 新消息

崩坏星穹铁道书籍在什么地方 具体一览

魔镜物语怎么跳过战斗 魔镜物语快速结束战斗方法 百事通

襄阳经济开发区税务局：“税讯达”让办税体验优质更有感

大庆全切双眼皮哪家医院好不妨来看一下

主题教育市委巡回指导十三组推动所指导单位务实调研，以实干破难题、解民忧——为了这场座谈会指导组下沉走访半个月|热点在线

中国古代著名的射箭名手养由基

统一股份：我们已经开发出了风电行业润滑的产品，正在推进相关技术认证和产品准入工作

实时：晨光新材：公司烯丙基缩水甘油醚产品已取得江西省应急管理厅发布的《安全生产许可证》

最靠谱的三个星座，是不多言的行动派，还是善解人意的浪漫派？天天亮点

全球热消息：金牌健康教育讲师大赛打造健康科普特色品牌

粽香飘端午文化代代传——总台记者端午节来临之际探访曼谷唐人街|环球短讯

搭建政企沟通平台黑龙江漠河市召开服务民营经济高质量发展政企沙龙恳谈会-最资讯

清风头条丨常德市畜牧水产事务中心：讲授廉政党课护航养殖业高质量发展天天简讯

当前视点！伊朗总统莱希发表电视讲话强调愿意同地区国家发展关系

过户车买保险是不是要贵点情况是这样的热点评

纯白网络电台在线收听_纯白网络电台全球热议

五角大楼丑闻再发酵：对乌克兰的军事援助，“多算”了62亿美元世界速读

节日消费升温、出行热度高涨数字里看端午假期

22名老年游客遭遇暴雪被困可可西里消防紧急救援

女子离婚娘家人放鞭炮订蛋糕庆祝基本信息讲解

会意字图片展示大全会意字图片-全球速递

川大地铁事件学生被留校留党察看这样处理结果合适吗？

工商银行信用卡逾期会被上门催收吗？逾期后果有哪些？天天热讯

Flakked更推：Jankos放屁超大声像马里奥卡丁车有人用香蕉拳打你

七月半是什么时候烧纸钱七月半是什么时候

预计年内上市奇瑞TJ-1官方定名探索06 全球微头条

《勇者斗恶龙怪兽篇3》新作公开！12月1日发售！

国恩控股(08121.HK)年度亏损扩大至590万港元毛利率21.28%|今亮点

时隔一年再更新！券商重要名单发布 5家新进4家退出上榜将获诸多便利

孙杨:从未放弃说不游了做好自己该做的事情_每日精选新消息

崩坏星穹铁道书籍在什么地方具体一览

魔镜物语怎么跳过战斗魔镜物语快速结束战斗方法百事通

瑞典楼市现转机？5月新屋开工率近两年来首次上升世界速讯

【天天新要闻】Keep通过上市聆讯：年营收22亿腾讯GGV五源资本是股东

思林杰股票价格受宏观环境、行业政策及市场等多种因素的影响|全球热消息

当前消息！“粽”享端午假期各地举办丰富多彩民俗文化活动

证监会：突出防范债券发行商业贿赂不当承诺等风险点-当前热门

当前速讯：北京交通部门预计假期出行以短途游为主公交地铁增加运力

泰坦股份一季度营收净利双降拟9037万收购新疆扬子江提升竞争力_天天速递

美国国会或修改贸易法案加强小额邮包监管将影响跨境电商

连续第13次加息！英国央行决定加息50个基点播报

取消就业报到证北京高校毕业生档案这样转|观点

热门看点：湖人有意向下交易17号签：5队或成目标安吉助攻克六+奥利概率大

前后位灯是什么灯前后位灯是什么灯光环球速看料

天天热头条丨《暗黑破坏神4》穿透箭游侠配装心得穿透箭游侠怎么搭配

美利达公爵550多少钱（美利达公爵550）今日热搜

补计提个税会计分录怎么做补计提个税会计分录

每日时讯!《英雄联盟》发布新 CG 动画：介绍新英雄“百裂冥犬纳亚菲利”

世界滚动:马克龙马斯克共谋特斯拉在法投资企图建立超级工厂