DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法全球今头条

首页 > 旅游 > > 正文

2023-06-22 18:25:21 程序员客栈

前言

DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。

AlphaDev 系统直接从 CPU 汇编指令的层面入手去探索更优的排序算法，因为相对于高级编程语言来说，在汇编指令层级对存储和寄存器的操作可以更加的灵活，所以能发现更多潜在的调优策略。

在 AlphaDev 的论文中，只关注探索短序列排序：

(资料图片仅供参考)

定长序列排序（比如 sort3 算法只能对长度为3的序列进行排序）变长序列排序（比如 variable sort5 算法可以对长度为1~5的变长序列进行排序）

而对于长序列的排序，可以被分解为短序列的排序。

DeepMind 通过 AlphaDev 发现了比目前人工调优算法更优的定长短序列排序算法 sort3，sort4 和 sort5 ，并且已经将代码提交到了 LLVM 标准 C++ 库[4]。

简单来说，AlphaDev 将探索更高效排序算法的过程，建模为一个单玩家的汇编游戏（single-player game， AssemblyGame）。

游戏的过程就是玩家从 CPU 汇编指令集合中，选取一系列的指令组合得到一个新的排序算法。不过这个过程是非常有挑战的，玩家需要考虑，汇编指令的组合空间并最终得得到一个正确和高效的算法。

该游戏主要包括以下难点：

汇编游戏的搜索空间和围棋类似（10^700）只要有一条指令没弄对，可能就会导致整个算法错误AlphaDev 系统详解将排序算法表示为 CPU 汇编指令

首先来看一个简单的变长（variable sort2）短排序函数的 C 代码实现，排序结果从小到大：

voidvariable_sort_2(intlength,int*a){switch(length){case0:case1:return;case2:inttmp=a[0];//a[0]保存两者之间的最小值a[0]=(a[1]
通过 gcc生成对应的汇编代码，我用的 gcc版本是 11.3.0，命令 gcc -S -O1 -o sort2.s sort2.c
汇编代码只保留了核心部分，生成的结果和论文中的示例有些许不同但是原理是一致的：
variable_sort_2:  .LFB0:; %edi 寄存器保存参数 length 的值; cmpl 指令对比 %edi 和 常量 2cmpl$2, %edi ; 相等就跳转到 .L3 标签处，        ; 对应 C 代码的 case 2je.L3.L1:; 不等于 2 就直接返回，        ; 对应 C 代码 case 0 和 1ret .L3:; 将 a[0] 赋值给寄存器 %edx movl(%rsi), %edx; 将 a[1] 赋值给寄存器 %eax movl4(%rsi), %eax; 对比 %edx 和 %eaxcmpl%edx, %eax; 将 %edx 赋值给 %ecxmovl%edx, %ecx; cmov 是条件移动指令根据 cmpl ; 指令的结果判断是否执行; 如果 %eax <= %edx ; 则将 %eax 赋值给 %ecxcmovle%eax, %ecx; 此时 %ecx 保存了最小值; 将 %ecx 赋值给 a[0]movl%ecx, (%rsi); 如果 %eax 小于 %edx; 则将 %edx 赋值给 %eaxcmovl%edx, %eax; 此时 %eax 保存了最大值; 将 %eax 赋值给 a[1]movl%eax, 4(%rsi)jmp.L1
一般来说汇编程序所做的事情基本都是，将内存的值复制到寄存器，然后对寄存器的值作修改，再将寄存器的值写回到内存中。
而 AlphaDev 系统只关注 x86 处理器架构所支持的汇编指令集合的一个子集。
每条汇编指令的格式均为：操作码<操作数A, 操作数B>比如：
mov移动指令，表示将 A 的值赋值给 B
cmp比较指令，相当于 执行 A - B 操作，但是不会对 A 和 B 做修改，而是根据相减的结果设置特殊的 flag 寄存器，更多内容可以参考[5]
cmovX条件移动指令，根据 X和 flag 寄存器的值判断是否执行将 A 赋值给 B 的操作，一般都是出现在 cmp指令之后。X可以是 L（是否满足小于条件）， G（是否满足大于条件），LE（是否满足小于或等于条件），GE（是否满足大于等于条件）。
jX条件跳转指令，根据 X和 flag 寄存器的值判断是否执行跳转到指定标记位置操作，A 可以是汇编程序代码中的标记位置，如上面所示汇编代码的 .L1和 .L3。X可以是 NE（是否不等于），E（是否等于）或者可以填表示无条件跳转。
将探索更优排序算法表示为强化学习问题AlphaDev 将 CPU 汇编指令层面的算法优化过程转化为一个单玩家的游戏。
游戏每一步的状态定义为 : St = 。
其中， Pt表示游戏到至今为止所生成的算法，Zt则表示在给定输入的前提下执行完 Pt里的指令之后，内存和寄存器的状态。
如上图所示，在时间步 t，AlphaDev 接受到当前状态 St和 所要执行的动作 at（比如 mov），也就是往当前生成的算法 Pt中添加的合法汇编指令。
在添加完指令之后，就是计算奖励分数 rt（包括评估算法的正确性和延迟）。
算法正确性评估正确性评估就是将 N组测试序列输入到算法 Pt中，得到N组输出，和正确的排序结果最比较来计算奖励分数。
论文中给出了3种正确性评估函数，首先定义 P为输入序列长度， PCt为在时间步 t序列中，位置正确的值的个数，这里我理解应该是和正确的排序结果逐个位置对比，统计相等的个数。
三个函数分别定义如下：
func1 = (P - PCt) / Pfunc2 = sqrt(func1)func3 = sqrt(PCt)论文中提到采用第三个函数效果最好。
延迟评估延迟分数的计算可以是：
对系统增加代码长度计算惩罚，因为代码的长度一般都是和耗时高度相关直接计算算法的真实耗时整个强化学习的游戏在执行有限步骤之后就会被终止。只有生成正确而又低延迟的汇编代码才算赢得游戏。而不管是生成了错误的代码还是正确但低效的实现都视为游戏输了。
AlphaDev 采用的强化学习算法是对 AlphqaZero 算法的扩展，也是采用深度神经网络来引导蒙特卡洛树搜索（MCTS）的规划过程。网络模型的输入是 St，输出是对动作策略和奖励的预测。
整个游戏过程简单来说就是，用一个固定参数的网络模型，通过给定的当前状态执行一个蒙特卡洛树搜索过程，然后采取下一步动作。然后可以用生成的游戏过程（包含每一步的状态和奖励）去训练和更新网络的参数。
网络模型结构模型包含两部分：
一个 Transformer 编码器模块，用于建模算法，输入是至今为止生成的汇编指令序列一个 CPU 状态编码器 MLP 模块，输入当前寄存器和内存的状态两个网络的输出 embedding 会合并在一起来表示当前的状态。
网络模型整体的结构如下：
Transformer 编码器模块具体图示
如上图所示，把当前生成的汇编代码序列的每一条指令的操作码和操作数都转换为 one-hot 编码序列，然后输入到网络中。
但是具体的 one-hot 编码规则、词表怎么设置、还有对于 CPU 状态编码网络寄存器和内存的状态是怎么表示为网络的输入的等等，这些细节我在论文里没找到。
然后两个网络的输出 embedding 会合并到一起接着输入到几个函数头里计算，分别是预测下一步策略的函数头，预测算法正确性的函数头和预测算法真实延迟的函数头。
网络参数超参设置
论文的补充资料中提供了网络的参数和三个函数头的具体配置。
而对于策略的预测，论文中提到为了简化问题和提高收敛性，而对动作空间做了一些限制，规则如下：
必须按照升序方式读取内存寄存器按照升序分配cmp和 cmovX指令的操作数不能出现内存地址对每个内存位置，只能读取和写入一次每个寄存器在使用之前，必须初始化不能连续调用 cmp指令训练细节
AlphaDev 的训练采用了 TPU v3，每个 TPU 核的 batch size 是 1024 ，总共用了 16 个 TPU 核，总共训练了 100 万次迭代。而在对于玩游戏积累训练数据来说，则是在 TPU v4 上进行，总共用了 512 个 TPU 核。
实验结果表明，最多只需2天模型就能训收敛。
实验结果生成的算法和人工调优对比从实验结果表格可以看到，对于短序列排序算法 AlphaDev 生成的代码长度更短，而且平均耗时也更低。
对生成算法延迟的评估方式，比如对于 sort3则是在 100 台机器上做评估，每台机器随机生成 1000 条 3个数的序列，然后每条序列输入到算法中，对这 1000 次评估取第5百分位数作为最终的评估结果（排除 cache miss 和 任务抢占 等因素）。
耗时采用的是 CPU_CLK_UNHALTED.CORE这个计数器结果， 其计数值表示在一个特定时间段内，处理器内核的时钟周期数。这个值越高，意味着处理器内核在该时间段内执行了更多的指令。
AlphaDev 发现新的算法对于定长序列排序，当应用到排序网络算法[6]（sorting network algorithm）的时候 AlphaDev 生成的代码中包含了一些有趣指令序列，相对于原始指令序列可以减少一条汇编指令，论文中称之为：
AlphaDev swap moveAlphaDev copy move啥是排序网络算法？
排序网络算法（Sorting Network Algorithm）是一种能够对一组输入数据进行排序的并行算法，其具有较好的并行性能适用于多处理器或多核心系统。
该算法的特点是，它将所有的比较和交换操作预先规划好形成一个固定的结构，然后将输入数据按照这个结构进行排序。
排序网络由比较器（comparator）和线（wire）组成，如下图所示：
水平线表示 wire，每条水平线持有一个待排序的值。两条 wire 之间的垂直线段就表示一个比较器，比较器对比两条水平线的值，如果比较器下方的值小于上方的值则交换两条横线的值，否则则不交换。
一个优化过的排序网络可以以最少的比较器，并将这些比较器放置在特定位置上，来实现对任意序列进行排序。
下图是对一个构造好的排序网络，输入真实待排序序列的例子：
可见初始输入是 [2, 3, 1, 4]，这些随机数从左到右按顺序经过这些比较器之后，就得到了排序好的序列 [1, 2, 3, 4]。
AlphaDev swap move
先来看这个排序网络，只看红圈部分的功能就是对给定的输入 [A, B, C]将其转换为 [min(A,B,C), max(min(A,C),B), max(A,C)]。
然后经过 AlphaDev 优化之后，可以将第一个输出的 min(A,B,C)改为只计算 min(A,B)，原因是因为前面的 B和 C横线之间经过比较器之后已经有了前置条件 B <= C。
而通过这个优化就能省去一条汇编指令，下图是红圈部分的伪代码实现：
左边是原始伪代码实现，右边是经过 AlphaDev 优化之后的实现，可以看到少了一条汇编指令 mov S P。
AlphaDev copy move
接下来看对4个元素进行排序的排序网络，是在对 sort8这个算法优化过程中发现的。该排序网络对于输入序列 [A, B, C, D]转换为 [min(A, B, C, D), max(B, min(A, C, D), max(C, min(A, D)), max(A, D) ]。
该排序网络是 sort8的一个子排序网络，而根据比较器的放置位置来看，A和 D比较之后后续就不再和其他元素比较了，所以D出来的结果就是四个元素中最大的，所以隐含了一个条件就是 D >= min(A, C)。
因此对第二个输出元素的计算可以从 max(B, min(A, C, D))改为 max(B, min(A, C))，就可以节省一条汇编指令。
伪代码如下:
左边是原始伪代码实现，右边是经过 AlphaDev 优化之后的实现，可以看到少了一条汇编指令 mov P T。
总结这篇文章只是对 AlphaDev 论文中的主要内容作解读，对于更多的内容和细节感兴趣的读者可以查阅原论文和论文的补充资料 [2,3]，DeepMind 也也开源了一份伪代码实现 [7]。
参考资料[1] https://ee.usc.edu/~redekopp/cs356/slides/CS356Unit5_x86_Control[2] https://www.nature.com/articles/s41586-023-06004-9#MOESM1[3] https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-023-06004-9/MediaObjects/41586_2023_6004_MOESM1_ESM.pdf[4] ⚙ D118029 Introduce branchless sorting functions for sort3, sort4 and sort5. (llvm.org)[5] 小信豬的原始部落: PC Assembly Language 學習筆記(5) - Control Structures (godleon.blogspot.com)[6] https://en.wikipedia.org/wiki/Sorting_network#:~:text=as%20the%20contrapositive.-,Constructing%20sorting%20networks,are%20often%20used%20in%20practice.[7] https://github.com/deepmind/alphadev

DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法 全球今头条

全球快看点丨2022年罗浮山门票多少钱一张 罗浮山门票是多少钱

观赏百合种球可以吃吗 百合种球能不能吃-热头条

《孕妇专享：制作时尚破烂风安娃娃假发，送给最美妈妈》

成瘾药品为何能轻易买到？青少年滥用药品现象调查 当前关注

全球热讯:盘点师生恋电影 应网友要求师生恋电影推荐来了

全球观察：破纪录！北京汤河口41.8℃，当前气温全国第一

奇才联盟第一慈善家？三笔交易获0首轮：甩2.44亿包袱也输到想哭|世界视讯

《碧蓝航线》国际服更新失败解决办法

新款旗舰性价比之王 墨蛇P60 pro手机测评

马斯克扯下美国遮羞布：没有中国，谁也别想造出电动车！ 今日播报

环球快报:33岁韩星崔成峰家中自杀，生前装病诈骗10亿韩元，留遗书称是赎罪_每日热文

男子4乘100米预赛江苏队以39秒03列预赛第一_环球新动态

今日精选：紫光股份旗下新华三再次斩获中国以太网交换机市场第一

环球聚焦：夜激情

【全球热闻】武昌石洞街道摆起“爱心宴” 困难群众共品浓情端午

上海就科技成果转化创新改革试点实施方案征求意见|今日热文

微头条丨抖音电商将于6月24日启动“寻玉中国之云南”专项活动

《秀我中国 | 新时代中国乡村志（第四集）：千年梯田 十年新生》

天天热头条丨昆明市新增一座城市候机楼

亚马逊(AMZN.US)Prime Day即将到来 美国消费热情面临重大考验

莱西市税务局主动送政策上门 助力残疾人就业企业向阳发展

挂牌高位，去化乏力，深圳二手房卖不动了！

世界快资讯丨决斗之王ow内购版_决斗之王ow

世界关注：家有小孩，新房装修媳妇坚持全屋贴了瓷砖，没成想完工效果这么好

转发这个锦鲤，北京中考2023迎接好运

深圳楼市：楼层高低怎么选？如何才算赚到？ 天天通讯

车主自己训练常用路线 五菱『记忆行车』解析

华友钴业：拟投建高镍型动力电池用三元正极项目

斗罗大陆之平行世界：第二部（二十）

今日热闻!鄂尔多斯市总工会开展“关爱职工·健康同行”暖心服务活动

天天热文：主力复盘：6亿抢筹银行 16亿砸盘昆仑万维

车险怎么买最合适2023年?车险一年需要多少钱?

开始报名！蔡甸区检察院公开招聘4名雇员制检察辅助人员

郑州市将于 6月21 日-8月31 日发放共 5000 万元汽车消费券

天天快看点丨挪威央行：很可能在8月份进一步上调利率

酸浆豆腐_天天消息

李想，在微博“造车”

欧盟呼吁科索沃北部地区重新举行选举-全球观天下

【环球新要闻】佛山市人大代表：建议打造东平水道科创走廊

aql2.5是什么意思_aql2 5

世界滚动:玩dnf跳出应用程序发生异常_dnf应用程序发生异常0xe06d7363

全球热头条丨今日视点：上市公司AI“冲浪” 谨防“乱上头”

谨防溺水！湖北省教育厅发布暑期重要提示

秦皇岛成立葡萄酒产业创新联盟

白肉指的是哪些食物?_白肉指的是羊肉还是鸭肉

【快播报】6.22-7.22｜来玉林二巷 CACP 开放日

珠海拱北口岸附近酒店推荐（珠海拱北口岸附近酒店）

环球快看点丨宁夏：到2025年底实现基本养老服务制度基本健全

环球滚动:离岸人民币对美元一度跌破7.2关口，去年11月末以来首次

天天简讯:谢谢你使我成为更好的自己作文600字初三_谢谢你使我成为更好的自己作文600字

天天视点！改变自己作文600字初中生_改变自己作文600字初中

情况有变，加拿大要出兵俄家门口，英法吵起来了，美国却在看热闹 全球热议 天天热点

环球热头条丨工信部重磅 5G工厂要来了！5G＋工业互联网概念股名单出炉

天天看点：秉持是什么意思解释_秉持是什么意思

环球关注：万人成林 海信中央空调兑现“健康南山跑”承诺

成都理工大学：成都校区今年计划招生较去年增加300人

6月23日-6月28日喜迎人生上上签，横财大发，喜获真爱的生肖 世界热闻

每日快报!擦亮城市“流动名片”，宝山区开展车容车貌专项整治行动

前热刺、皇马球星贝尔接受德国媒体fussball...

肖羊2024年与谁相冲相克 与生肖鼠尽量避免误会和争吵_观热点

世界球精选！广州新能源汽车产业一季度发明专利授权量同比增22.6%

今日要闻!聊一聊：小米14设计定了：标准版小直屏 Pro版极窄微曲屏

世界观点：道路交通事故残后护理标准有什么？

广东省男篮联赛广州队主场赛将在增城举行

【天天播资讯】装机必备的APP，支付宝如何改变我们的生活？

上海楼市，破防了......

高考志愿填报专业和学校哪个优先？优秀的孩子学校优先，一般孩子专业优先 快播

天天即时：工行宿迁分行持续提升绿色金融发展服务质效

武汉蔡甸“四大比拼”强技能，以赛促学展风采 焦点简讯

2022年西北五省GDP：陕西维稳，甘肃突破 世界今热点

全球聚焦：快讯｜因违规从事未批准的业务活动等 中国银行上海人民币交易业务总部被罚没近697万元

宁夏铁路部门开行“环西部火车游·崆峒号”旅游专列

第一届上海市健康科普推优选树活动颁奖典礼举行 杨秉辉、胡锦华获特别贡献奖 环球快资讯

超智能控股(01402.HK)将于9月6日派发年度特别股息每股0.012港元

世界今头条！2023转债行业梳理之一：机器人行业转债大盘点

当前速讯：队记：湖人将优先考虑未来而非目前的窗口 克里斯蒂是非卖品

如何防止晒伤并保持年轻？

当前快报:江夏区同兴村开展“粽香生日会、情系老人心”端午主题活动

每日快报!又一名国足归化球员即将回国效力？目前处在初始运作阶段

DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法全球今头条

全球快看点丨2022年罗浮山门票多少钱一张罗浮山门票是多少钱

观赏百合种球可以吃吗百合种球能不能吃-热头条

成瘾药品为何能轻易买到？青少年滥用药品现象调查当前关注

全球热讯:盘点师生恋电影应网友要求师生恋电影推荐来了

新款旗舰性价比之王墨蛇P60 pro手机测评

马斯克扯下美国遮羞布：没有中国，谁也别想造出电动车！今日播报

《秀我中国 | 新时代中国乡村志（第四集）：千年梯田十年新生》

亚马逊(AMZN.US)Prime Day即将到来美国消费热情面临重大考验

莱西市税务局主动送政策上门助力残疾人就业企业向阳发展

深圳楼市：楼层高低怎么选？如何才算赚到？天天通讯

车主自己训练常用路线五菱『记忆行车』解析

情况有变，加拿大要出兵俄家门口，英法吵起来了，美国却在看热闹全球热议天天热点

环球关注：万人成林海信中央空调兑现“健康南山跑”承诺

6月23日-6月28日喜迎人生上上签，横财大发，喜获真爱的生肖世界热闻

肖羊2024年与谁相冲相克与生肖鼠尽量避免误会和争吵_观热点

高考志愿填报专业和学校哪个优先？优秀的孩子学校优先，一般孩子专业优先快播

武汉蔡甸“四大比拼”强技能，以赛促学展风采焦点简讯

2022年西北五省GDP：陕西维稳，甘肃突破世界今热点

全球聚焦：快讯｜因违规从事未批准的业务活动等中国银行上海人民币交易业务总部被罚没近697万元

第一届上海市健康科普推优选树活动颁奖典礼举行杨秉辉、胡锦华获特别贡献奖环球快资讯

当前速讯：队记：湖人将优先考虑未来而非目前的窗口克里斯蒂是非卖品

《英雄联盟》发布新 CG 动画：介绍新英雄“百裂冥犬纳亚菲利”-播资讯

养茉莉花的禁忌养茉莉花的禁忌是什么

重庆燃气（600917）6月21日主力资金净卖出84.14万元快消息

全球实时：台湾艺人NONO遭控性骚多女发文道歉宣布停止演艺工作

《超级马里奥兄弟：惊奇》10月发售游戏预告片欣赏

临时停火协议到期苏丹多地再度爆发激烈冲突-世界热门

张兰回应大S怀孕！在直播间装孕妇，扬言：转移话题，给它送走全球速讯

DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法全球今头条

环球观天下！转账支票有效期是10天还是10个工作日转账支票有效期几天

全球快看点丨2022年罗浮山门票多少钱一张罗浮山门票是多少钱

实时：新手第一次坐飞机流程坐飞机行李箱有什么要求（超过20KG要收费

观赏百合种球可以吃吗百合种球能不能吃-热头条

演员张嘉译个人简介演员张泽

曾春蕾健身图片曾春蕾-天天视讯

今热点：“线上+线下”流量带销量娄底夏季消费“热”起来

成瘾药品为何能轻易买到？青少年滥用药品现象调查当前关注

韩国的最火的组合有哪些盘点韩国十大当红组合_世界速递

乔加偏旁组词大家可以看看

全球热讯:盘点师生恋电影应网友要求师生恋电影推荐来了

北京奥林匹克运动会宣传片奥林匹克光辉闪耀

焦点报道:售15.99万起 2024款广汽埃安AION V Plus正式上市为家庭用户打造

文明睇龙舟！龙舟邀请赛组委会向广大市民游客发出倡议全球球精选

“粽”享安康北京怀柔镇多彩活动过端午

新款旗舰性价比之王墨蛇P60 pro手机测评

比张镇麟还快！24岁小将获3年顶薪合同成为CBA弱旅招牌球星|环球最新

马斯克扯下美国遮羞布：没有中国，谁也别想造出电动车！今日播报

小米遭印度扣押48亿元这些企业也有类似遭遇

事业单位职工福利费使用范围_事业单位职工福利费天天视讯

中远海运港口收购汉堡港部分股权为公司业务出海夯实基础_天天简讯

【环球报资讯】纺织服装产业链数字化融合暨服装产业人才创新发展论坛数字化助力纺织服装产业链向中高端延伸