比HuggingFace快24倍！伯克利神级LLM推理系统开源，碾压SOTA，让GPU砍半

首页 > 企业 > > 正文

2023-06-22 05:45:25 清一色财经

打「排位赛」的大模型们背后秘密武器曝光！UC伯克利重磅开源神级LLM推理系统——vLLM，利用PagedAttention，比HuggingFace/Transformers快24倍，GPU数量减半。

【资料图】

过去2个月，来自UC伯克利的研究人员给大语言模型们安排了一个擂台——Chatbot Arena。

GPT-4等大语言模型玩家打起了「排位赛」，通过随机battle，根据Elo得分来排名。

这一过程中，每当一个用户访问并使用网站，就需要同时让两个不同的模型跑起来。

他们是如何做到的？

这不，就在今天，UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。

简之，vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

配备全新算法的vLLM，重新定义了LLM服务的最新技术水平：

与HuggingFace Transformers相比，它提供高达24倍的吞吐量，而无需进行任何模型架构更改。

值得一提的是，「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。

正如研究者所称，vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。

这意味着，未来，即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。

项目地址：https://github.com/vllm-project/vllm

现在，所有人可以在GitHub仓库中使用一个命令尝试vLLM了。论文随后也会发布。

性能全面碾压SOTA

今天，这个由UC伯克利创立的开放研究组织LMSYS介绍道：

「一起来见证vLLM：Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU数量减少了一半，同时每天平均提供3万次请求。」

vLLM的性能具体如何？

UC伯克利团队将vLLM的吞吐量与最受欢迎的LLM库HuggingFace Transformers（HF），以及HuggingFace文本生成推理（TGI），先前的最新技术水平进行了比较。

团队在两个设置中进行评估：在NVIDIA A10G GPU上运行LLaMA-7B模型，在NVIDIA A100 GPU（40GB）上运行LLaMA-13B模型。

然后，研究人员从ShareGPT数据集中抽样请求的输入/输出长度。

在实验中，vLLM的吞吐量比HF高达24倍，并且比TGI高达3.5倍。

在每个请求只需要一个输出完成时的服务吞吐量。vLLM比HF的吞吐量高出14倍-24倍，比TGI的吞吐量高出2.2倍-2.5倍

在每个请求需要3个并行输出完成时的服务吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍，比TGI的吞吐量高出3.3倍-3.5倍

秘密武器：PagedAttention

在vLLM中，团队发现LLM服务的性能受到内存的限制。

在自回归解码过程中，LLM的所有输入token都会生成注意力键（key）和值（value）张量，并且这些张量被保留在GPU内存中以生成下一个token。

这些缓存的键和值张量通常被称为KV缓存。KV缓存具有以下特点：

1. 内存占用大：在LLaMA-13B中，单个序列的KV缓存占用高达1.7GB的内存。

2. 动态化：其大小取决于序列长度，而序列长度高度易变，且不可预测。

因此，有效管理KV缓存是一个重大挑战。对此，研究团队发现现有系统由于碎片化和过度保留而浪费了60%至80%的内存。

用团队的导师Joey Gonzalez的一句话来讲：GPU内存碎片化=慢。

为了解决这个问题，团队引入了PagedAttention，一种受到操作系统中虚拟内存和分页经典概念启发的注意力算法。

与传统的注意力算法不同，PagedAttention允许在非连续的内存空间中存储连续的键和值。

具体来说，PagedAttention将每个序列的KV缓存分为若干块，每个块包含固定数量token的键和值。在注意力计算过程中，PagedAttention内核能够高效地识别和提取这些块。

PagedAttention：KV缓存被分割成块，这些块在内存中不需要连续

由于这些块在内存中不需要连续，因此也就可以像操作系统的虚拟内存一样，以更灵活的方式管理键和值——将块看作页，token看作字节，序列看作进程。

序列的连续逻辑块通过块表映射到非连续的物理块。随着生成新的token，物理块会按需进行分配。

使用PagedAttention的请求生成过程示例

PagedAttention将内存浪费控制在了序列的最后一个块中。

在实践中，这带来了接近最优的内存使用——仅有不到4%的浪费。

而这种内存效率的提升，能让系统将更多的序列进行批处理，提高GPU利用率，从而显著提高吞吐量。

此外，PagedAttention还具有另一个关键优势：高效的内存共享。

比如在并行采样中，就能从相同的提示生成多个输出序列。在这种情况下，提示的计算和内存可以在输出序列之间共享。

并行采样的示例

PagedAttention通过块表自然地实现了内存共享。

类似于进程共享物理页的方式，PagedAttention中的不同序列可以通过将它们的逻辑块映射到相同的物理块来共享块。

为了确保安全，PagedAttention会跟踪物理块的引用计数，并实现了写时复制机制。

采样多个输出的请求示例生成过程

PagedAttention的内存共享极大减少了复杂采样算法（如并行采样和束搜索）的内存开销，将它们的内存使用量减少了高达55%。这可以将吞吐量提高多达2.2倍。

总结而言，PagedAttention是vLLM的核心技术，它是LLM推断和服务的引擎，支持各种模型，具有高性能和易于使用的界面。

GitHub上，团队也介绍了vLLM能够无缝支持的HuggingFace模型，包括以下架构：

– GPT-2（gpt2、gpt2-xl等）

– GPTNeoX（EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等）

– LLaMA（lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等）

– OPT（facebook/opt-66b、facebook/opt-iml-max-30b等）

小羊驼和排位赛的「幕后英雄」

4月初，UC伯克利学者联手UCSD、CMU等，最先推出了一个开源全新模型——130亿参数的Vicuna，俗称「小羊驼」。

从那时起，Vicuna已在Chatbot Arena为数百万用户提供服务。

最初，LMSYS的FastChat采用基于HF Transformers的服务后端来提供聊天demo。

但随着demo变得越来越受欢迎，峰值流量猛增了好几倍，而HF后端也因此成了一个重大的瓶颈。

为了解决这一挑战，LMSYS与vLLM团队紧密合作，全力开发出了全新的FastChat-vLLM集成——通过将vLLM作为新的后端，来满足不断增长的需求（最多增加5倍的流量）。

根据LMSYS内部微基准测试的结果，vLLM服务后端可以实现比初始HF后端高出30倍的吞吐量。

4月-5月期间，Chatbot Arena的后端已经部落了FastChat-vLLM的集成。实际上，有超过一半的Chatbot Arena请求都使用FastChat-vLLM集成服务的

自4月中旬以来，最受欢迎的语言模型，如Vicuna、Koala和LLaMA，都已成功使用FastChat-vLLM集成提供服务。

FastChat作为多模型聊天服务前端，vLLM作为推理后端，LMSYS能够利用有限数量的GPU（学校赞助的），以高吞吐量和低延迟为数百万用户提供Vicuna服务。

现在，LMSYS正在将vLLM的使用扩展到更多的模型，包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安装vLLM（另可查看安装指南了解更多信息）：

$ pip install vllm

vLLM可用于离线推理和在线服务。要使用vLLM进行离线推理，你可以导入vLLM并在Python脚本中使用LLM类：

from vllm import LLMprompts = ["Hello, my name is", "The capital of France is"]  # Sample prompts.llm = LLM(model="lmsys/vicuna-7b-v1.3")  # Create an LLM.outputs = llm.generate(prompts)  # Generate texts from the prompts.

要使用vLLM进行在线服务，你可以通过以下方式启动与OpenAI API兼容的服务器：

$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3

你可以使用与OpenAI API相同的格式查询服务器：

$ curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d "{        "model": "lmsys/vicuna-7b-v1.3",        "prompt": "San Francisco is a",        "max_tokens": 7,        "temperature": 0    }"

有关使用vLLM的更多方法，请查看快速入门指南：

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

团队介绍

Zhuohan Li

Zhuohan Li是加州大学伯克利分校计算机科学专业的博士生，研究兴趣是机器学习和分布式系统的交叉领域。

在此之前，他在北京大学获得了计算机科学学士学位，指导老师是王立威和贺笛。

Woosuk Kwon

Woosuk Kwon是加州大学伯克利分校的博士生，研究兴趣是为大语言模型等新兴应用建立实用、灵活和高性能的软件系统。

团队其他成员包括庄思远、盛颖、郑怜悯、Cody Yu。团队导师包括Joey Gonzalez，Ion Stoica和张昊。

其中，团队的大部分成员同时也是LMSYS成员。

性能全面碾压SOTA

秘密武器：PagedAttention

小羊驼和排位赛的「幕后英雄」

vLLM使用教程

团队介绍

浪潮信息预警业绩风险，AI概念龙头股涨不动了？

银川市住房公积金使用政策有调整！ 天天头条

当前资讯!音乐学学什么课程及毕业薪酬岗位去向 就业前景怎么样

生活照片尺寸大小对照表 生活照片尺寸-当前最新

万兴科技跌11.9% 财通证券昨日维持增持评级

焦点信息:知乎：618期间关于“如何选购商品”提问同比增加155.1%

温峥嵘谈演员的职业操守，打脸了恩师黄磊，网友扒出她撒谎了

重庆银行: 关于重庆银行股份有限公司2022年度股东大会的法律意见书 焦点关注

【圣诞送礼指南】这5个手作缝纫项目，完美收场你的节日送礼计划！

丰田(TM.US)追上市场电气化进程 野村、瑞穗加入看涨行列

全球即时：Woj：篮网会先留下布里奇斯 等有巨星可供交易才会考虑动他

天天微速讯：16岁男生最期待收到哪些生日礼物？探究男生心理喜爱哪些特殊礼品

热门标题：如何选购有意义的16岁男孩生日礼物？完美建议，送你最好的选择！

清新环境（002573）：6月21日北向资金增持21.07万股

市十六届人大常委会第十三次会议闭会

天津蓟州郭家沟：美丽乡村“蝶变记”

上海为什么叫魔都日本_上海为什么叫魔都

世界观点：胃胀气打嗝是什么原因_吃完饭胃胀气的原因

环球速看：皇立国教骑士团OVA评价_皇立国教骑士团ova

记者：吉达国民对卢卡库提出丰厚报价，球员对转会抱开放态度 世界百事通

智通ADR统计 | 3月25日-世界动态

每日观点：证监会发布新一轮证券公司“白名单” 31家机构入列

宇航人公司亮相第二十一届世界制药原料中国展（CPHI China 2023）|每日看点

荣旗科技：荣旗与腾讯共同探索AI在工业领域的应用与落地

“9+1”碳市场共同发起“碳市场支持碳达峰碳中和倡议”

上汽通用汽车有限公司召回部分进口及国产汽车 共计78205辆

工信部：制定实施“5G+工业互联网”512升级版工作方案 世界百事通

视焦点讯！五洲特纸：拟向实控人定增募资不超8.5亿元

搜搜影院官网_搜搜看看_时快讯

要闻：融入京津冀 架好就业桥 张家口市深化京津冀劳务协作稳岗促就业

每日简讯：农发行昌吉州分行念好“三字诀”打好夏粮收购“第一仗”

甘肃华亭：城乡融合绘新景

每日视点！6月21日影视院线行业十大熊股一览

【热闻】五洲特纸最新公告：拟定增募资不超8.5亿元

湖北首个非遗保护基地授牌-今头条

天天即时看！振荡器突爆利好，3只龙头直线涨停，概念股名单来了

法拉第未来盘前涨超6% 首款车型第二阶段交付推迟-每日时讯

环球精选！探访村镇特色产业②|西南规模最大观赏鱼养殖基地铜梁岩湾村——每年“游”出9000多万尾观赏鱼

细节关乎生命，拒绝分心驾驶丨动图说安全_环球快看

北京市经信局王磊：从五方面发力 加快建设全球数字经济标杆城市_全球热议

固原携农文旅资源“奔赴”福州 再续浓浓“山海情”

身家近1800亿元，中国女首富想再添1家上市公司！重启分拆上市计划

热点在线丨欧盟《新电池法》：一场电池界的“文艺复兴”？

当前观点：《巅峰极速》俱乐部耐力赛怎么高分

蔚来受邀出席中德企业家圆桌会，为唯一智能电动车企

bandicam设置fps参数的方法

全球要闻：阳普医疗:公司没有涉及房地产板块

端午小长假带您领略沈阳人的“桃花源”|全球视讯

长沙发挥考核指挥棒作用 推动高素质干部队伍建设

创世生态存在违规提供对外担保及进行关联交易行为 主办券商提示公司注意经营风险

最新养老金调整补发2023年在即 1950年到1960年的人可以领取多少？

焦点日报：诉前财产保全材料准备指南

日本福岛市民游行反对核污水排海：政府连民众基本疑问都不回答 天天即时

马来西亚企业考察吉林促农业合作|天天快消息

纯白网络电台在线收听_纯白网络电台

当前短讯！荷风送香气_荷风送香

每日速看!天津蓟州郭家沟：美丽乡村“蝶变记”

增额终身寿险科普？增额终身寿险的全面介绍 世界视讯

五旬泥匠捡到奔驰车司机遗落的一匝现金，失主：给母亲治疗癌症借的钱，感谢大家帮忙找回 今日关注

广州海珠建立社会保险费联建共治机制|环球热推荐

天天热议:法国总统宣布欧洲多国将联合采购法制防空系统 引发德国防长质疑

“端午两不去，去了亲人哭”，端午节这3个地方不能去，一定要记住！|环球热讯

当前热文：【程序源代码】人工智能ChatGPT实现的微信小程序

过失损坏交通设施犯罪是怎样的认定标准

首批算法备案清单公布，阿里腾讯等企业在列-世界热头条

观速讯丨全省民营经济发展壮大电视电话会议召开 遂宁设立分会场

有心有力，致态TiPlus5000发布全新固件ZTA10666 短讯

“千万工程”调研行丨扮靓海上花园 焕发发展活力——浙江温州洞头乡村振兴一线观察-天天观天下

环球热文：全国工笔画名家小品邀请展在天水开展

天天精选！兰州铁路局扩充运力满足旅客端午假期出行

阳江有哪些区 阳江旅游景点有哪些

焦点简讯:肃南：万头奶牛养殖项目开工

mega进化图鉴大全表格_mega进化图鉴大全 当前报道

食品饮料行业双周报：悲观情绪得以释放 看好2023年下半年结构升级趋势 “跑赢大市”|环球精选

【组图】三明泰宁：非遗进校园 文化共传承

银川市住房公积金使用政策有调整！天天头条

当前资讯!音乐学学什么课程及毕业薪酬岗位去向就业前景怎么样

生活照片尺寸大小对照表生活照片尺寸-当前最新

重庆银行: 关于重庆银行股份有限公司2022年度股东大会的法律意见书焦点关注

丰田(TM.US)追上市场电气化进程野村、瑞穗加入看涨行列

全球即时：Woj：篮网会先留下布里奇斯等有巨星可供交易才会考虑动他

记者：吉达国民对卢卡库提出丰厚报价，球员对转会抱开放态度世界百事通

上汽通用汽车有限公司召回部分进口及国产汽车共计78205辆

工信部：制定实施“5G+工业互联网”512升级版工作方案世界百事通

要闻：融入京津冀架好就业桥张家口市深化京津冀劳务协作稳岗促就业

北京市经信局王磊：从五方面发力加快建设全球数字经济标杆城市_全球热议

固原携农文旅资源“奔赴”福州再续浓浓“山海情”

长沙发挥考核指挥棒作用推动高素质干部队伍建设

创世生态存在违规提供对外担保及进行关联交易行为主办券商提示公司注意经营风险

日本福岛市民游行反对核污水排海：政府连民众基本疑问都不回答天天即时

增额终身寿险科普？增额终身寿险的全面介绍世界视讯

五旬泥匠捡到奔驰车司机遗落的一匝现金，失主：给母亲治疗癌症借的钱，感谢大家帮忙找回今日关注

天天热议:法国总统宣布欧洲多国将联合采购法制防空系统引发德国防长质疑

观速讯丨全省民营经济发展壮大电视电话会议召开遂宁设立分会场

“千万工程”调研行丨扮靓海上花园焕发发展活力——浙江温州洞头乡村振兴一线观察-天天观天下

阳江有哪些区阳江旅游景点有哪些

mega进化图鉴大全表格_mega进化图鉴大全当前报道

食品饮料行业双周报：悲观情绪得以释放看好2023年下半年结构升级趋势 “跑赢大市”|环球精选

【组图】三明泰宁：非遗进校园文化共传承

热议：欧股集体低开英国富时100指数跌0.5%

当前聚焦：美联储加息近尾声外资重返亚洲债市：5月购买量创两年最大

端午节的故事50字端午节的故事50字四年级

世界热点评！中国体育彩票携手只有河南送您整个夏天的幸运

恒大地产再被执行8.4亿恒大地产累计被执行超399亿

淘天、抖音争夺“微信流量池” 丨南财号联播|全球信息

一头大一头小的梯形立方怎么算（梯形立方怎么算）全球快播

今日热闻!兔子肉怎么做好吃_家常红烧红烧兔子肉做法

AI代写论文该不该管？“有助科研”还是“助长作弊”？

电动车进电梯为什么会自燃_电动车进电梯会自燃的原因环球观天下

银川市住房公积金使用政策有调整！天天头条

618复盘|今年物流忙不忙看京东快递小哥怎么说

瑞典：土耳其议会是时候启动瑞典“加入北约”程序的讨论动态

中国跨境电商Shein：被美国零售巨头忽视的强大对手｜巴伦封面世界快播

刘欢的在路上歌词完整版_刘欢的在路上歌词

数据复盘：近6亿净流入银行龙虎榜抢筹南方精工

6月21日北向资金最新动向（附十大成交股）每日热闻

舞蹈编导学什么课程及毕业薪酬岗位去向就业前景怎么样

当前资讯!音乐学学什么课程及毕业薪酬岗位去向就业前景怎么样

新华保险理赔案例：一念之差险退保，97万理赔金渡难关环球消息