每日速读!重训“羊驼”大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做

首页 > 交通 > > 正文

2023-06-22 02:05:24 腾讯网

丰色发自凹非寺

量子位 | 公众号 QbitAI

(资料图)

Meta“羊驼”（LLaMA）的开源可商用复现品OpenLLaMA发布重大更新：

在1T token上训练出来的130亿参数版本现已正式上线。

至此，这一训练量和原版羊驼已完全一致。

与此同时，之前发布的70亿以及30亿参数版本也完成了1T token的训练，并发布PyTorch和JAX权重。

可谓“一家人整整齐齐”。

性能测试显示，OpenLLaMA在多项任务中的表现都与原始LLaMA相当，并且不乏超越的情况。

一个彻底开源且供商用的LLaMA竞品家族就此诞生了。

目前，OpenLLaMA在GitHub上的标星数已近5k。

重训“羊驼”，最香替代品全面开放商用

OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目（Xinyang Geng拥有同等贡献，也是该校博士生）。

它在Together公司发布的RedPajama数据集上训练，该数据集其实也是LLaMA训练集的复制品，一共包含1.2T token。

除了数据集不太一样之外，OpenLLaMA使用了与原始LLaMA完全相同的预处理步骤和训练超参数，包括模型架构、上下文长度、训练步骤、学习率时间表和优化器，可以说是“重训”了一把。

今年5月，该团队率先发布了70亿参数版本，不过当时训练token还是3000亿。

按照计划，如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。

据介绍，130亿版本是与Stability AI合作训练的，后者主要提供计算资源（当初Stable Diffusion也是这么与Stability AI合作）。

和另外两个版本一样，OpenLLaMA-13B也以两种格式发布权重：

一是用于Hugging Face transformer的PyTorch格式。

使用该格式时需要注意先避免使用Hugging Face快速分词器（tokenizer），因为它的自动转换功能有时会给出不正确的tokenization。

所以可以先直接使用LlamaTokenizer class来实现，或者用AutoTokenizer class，将use_fast赋为False。

二是用于EasyLM框架的EasyLM格式。

在此请注意，与原始LLaMA不同，该OpenLLaMA的分词器和权重是完全从头开始训练的，因此不再需要获取原始 LLaMA的这俩信息。

接下来，在训练量已达成一致的情况下，看OpenLLaMA各规模模型的性能表现如何。

在这里，作者使用EleutherAI发布的自回归语言模型few-shot评估框架（lm-evaluation-harness）对两只“羊驼”进行评估，以及还加入了“第三者”：

EleutherAI在Pile数据集上训练的60亿参数模型GPT-J，它的训练token数是5000亿。

需要注意的是，可能是因为不同的评估协议，作者跑出来的LLaMA结果与原始LLaMA略有不同。

以下是结果：

红色小方框为OpenLLaMA超过或者与原LLaMA表现一样的情况。

在红框之外，两者的差距也不大。

而从平均表现来看，OpenLLaMA-7B和LLaMA-7B得分都是0.55，OpenLLaMA-13B和LLaMA-13B也都一样，为0.57，主打一个势均力敌。

与此同时，只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。

Meta也要发可商用大模型了

特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上，曾多次表达一个意思：

LLaMA-65b就是目前最好的开源基础模型，可惜没能商用。

现在，650亿的商用平替羊驼虽然还没出现，130亿和70亿是已经妥妥安排好了。

不过，也有一则好消息。

就在几天前，据The Information爆料，Meta AI正计划发布一个新的LLM，并且免费供大家商用。

有观点指出，在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下，Meta这一做法可能会引发连锁反应，并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于OpenLLaMA的所有相关链接：

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

好人好事丨“落单”学生遇暴雨 警方暖心护送-世界快资讯

环球关注：大黄鳝怎么煮才补_大黄鳝怎么煮

福建福州：中华龙舟大赛激情上演-焦点消息

（高质量发展调研行）记者手记：福建“海归”人才筑梦家乡促发展

前沿资讯!丘疹性荨麻疹是艾滋病皮疹吗_丘疹性荨麻疹是艾滋病初期症状吗

为什么属羊的女人命这么苦_为什么说生肖羊的是不好的 环球热推荐

淮安市建立安全生产“白名单企业”正向激励制度|环球播报

《赛马娘 热血狂欢大感谢祭》将于 2024 年登陆任天堂 Switch

程光明任陕西省人民政府办公厅副主任

北京房山：推动周口店、琉璃河、云居寺“三大文化组团”建设 擦亮北京“源”文化金名片|要闻

各地铁路公安加强宣传检查筑牢安全屏障

天天微资讯！助力圆梦 沾益警方举办民辅警子女高考志愿填报辅导讲座

三星医疗下属子公司中标中国华电集团23年新能源35kV箱式变压器框架采购项目 中标金额约为4.77亿

欧盟《新电池法》：一场电池界的“文艺复兴”？ 全球滚动

今日最新！线上股票开户-线上股票开户佣金

一级科员是什么级别_科员级别|天天新视野

原神草地笼位置（下地笼怎么选择位置） 焦点要闻

炎加世子_关于炎加世子介绍 世界独家

世界微动态丨8428培育过程_8428

环球动态:娄底农商银行开展营业网点服务标准化培训

线上教课用什么软件-线上授课软件哪个比较好

全球观察：晓鸣股份：8月鸡产品销售收入环比减少11.89%

全球实时：属猴人2023年运势及运程每月运程每日运程_属猴适合佩戴什么翡翠 属猴人适合佩戴的翡翠推荐

每日焦点！厨房下水道反水怎么解决_厨房下水道堵了怎么办妙招

葡萄牙和西班牙崛起的过程和兴盛原因_欧洲扩张的序幕为什么是由葡萄牙拉开的-世界新视野

节前氛围偏谨慎，黑色金属集体回调

【图说吕梁经开区大小事】

李商隐无题身无彩凤双飞翼解读_李商隐无题身无彩凤

7k小说网作者注册登录平台_7k小说|每日资讯

因赛集团：拟定增募资不超6.45亿元 用于营销AIGC大模型等项目

西方制裁背景下，俄罗斯接下来靠什么赚钱？俄媒提出5个来钱渠道|全球快消息

全球热消息：法国巴黎发生瓦斯爆炸 多栋建筑受影响

国家发改委与大众汽车集团签署合作意向书

一首简单的听雨诗，能让你快速静下心来_天天视点

马斯克又出惊人语录：做生意是为了促进和保护人类文明

最新名单公示！有30个团队入选！

夏至丨流光半夏 美好日长-新资讯

热点在线丨前妻减持概念带崩AI，昆仑万维跌到刷屏，一季度公募大举进场

世界视讯！可爱过头大危机 第十二集 太可爱了 预告

6月21日IT服务行业十大熊股一览

2022年中国独角兽企业榜单发布,循环经济产业公司转转集团入选

天津蓟州郭家沟：美丽乡村“蝶变记”_全球独家

“2023中国杰出雇主”最新榜单发布 爱尔康中国“上榜”

未来三天山东高温 省减灾办发布灾害风险预警提示

“乌克兰重建会议”上，苏纳克称“正探索使用俄资产合法途径”|速看料

Schroders PLC减持福莱特玻璃(06865)352.2万股 每股作价约26.71港元

环球今日报丨周琦启程回国，晒图证明一事，却遭球迷调侃，他真会加盟北控吗？

thursday的中文意思

癌症早期如何筛查体检|世界滚动

第四届海峡两岸峨眉武术文化交流活动开幕 天天短讯

渡运安全“三提升” 我们一直在行动_世界观天下

福州2023端午节有哪些文旅活动？

环球滚动:图知道｜今日夏至：绿筠尚含粉，圆荷始散芳

美国男子自称临时取消登上失踪观光潜艇 被要求参与救援

每日热闻!无糖可乐比普通可乐健康吗_无糖可乐就很健康结果恰恰相反

微信游戏小程序手游_微信游戏小程序

天天快报!安庆市发放软件服务包消费券1000万元

国足“试水”两连胜之后，是时候约战亚洲强队了？

世界热文：买车就买美式豪华！心之所向的林肯航海家

教育部举行教育强国建设战略咨询委员会成立大会暨第一次全体会议

奋战一“夏”！中国海诚中标系列项目_世界热头条

环球热推荐：“养老顾问”进村居，金山朱泾为老服务让“夕阳”更暖

滨海新区夏日“向海乐活节”启幕 邀您嗨玩“一夏”

天天速递！穿越到宫里逛市集！年轻人挤破头的德寿宫“夜游”长啥样

这个秋天该怎么穿牛仔？这6套时髦精穿搭，超级适合你哦！|快资讯

粽香沁人心 浓浓端午情！江苏路街道社工站开展端午节主题活动 焦点简讯

中国夫妇在日本旅游抓683只寄居蟹被捕，当地警方怀疑是用于走私，二人坚称是拿来吃 环球即时

青平：端午节掀起一轮传统文化新浪潮|当前时讯

全球热门:已开32份罚单！起底券商研报乱象：你看的研报，可能是无证分析师、实习生代写

曾黎百搭白衬衫优雅时尚写真|天天热头条

【世界速看料】查案发现证人“被死亡”？！结果让人意想不到……

世界快资讯丨鹤壁市鹤山区：齐心协力绘画卷 城区面貌换新颜

环球关注：张家界：博采众长 在党建共建中做足基层文章

宁夏银川一烧烤店发生爆炸 现场明火已扑灭|世界要闻

热点评！以健康徒步号召全民禁毒，咸安这一活动让市民向毒品说“不”

6月27日起填报高考志愿 这些问题需要提前了解

郴州市应急管理局：检查嘉禾“三类”场所安全隐患 提升企业本质安全

缓解焦虑，试试这些方法|当前滚动

用Python写了一个「拥抱梅西」的小游戏-今日快看

湖南高警局：预计今年端午湖南高速流量将提升20％以上 全球快资讯

好人好事丨“落单”学生遇暴雨警方暖心护送-世界快资讯

为什么属羊的女人命这么苦_为什么说生肖羊的是不好的环球热推荐

《赛马娘热血狂欢大感谢祭》将于 2024 年登陆任天堂 Switch

北京房山：推动周口店、琉璃河、云居寺“三大文化组团”建设擦亮北京“源”文化金名片|要闻

天天微资讯！助力圆梦沾益警方举办民辅警子女高考志愿填报辅导讲座

三星医疗下属子公司中标中国华电集团23年新能源35kV箱式变压器框架采购项目中标金额约为4.77亿

欧盟《新电池法》：一场电池界的“文艺复兴”？全球滚动

原神草地笼位置（下地笼怎么选择位置）焦点要闻

炎加世子_关于炎加世子介绍世界独家

全球实时：属猴人2023年运势及运程每月运程每日运程_属猴适合佩戴什么翡翠属猴人适合佩戴的翡翠推荐

因赛集团：拟定增募资不超6.45亿元用于营销AIGC大模型等项目

全球热消息：法国巴黎发生瓦斯爆炸多栋建筑受影响

夏至丨流光半夏美好日长-新资讯

世界视讯！可爱过头大危机第十二集太可爱了预告

“2023中国杰出雇主”最新榜单发布爱尔康中国“上榜”

未来三天山东高温省减灾办发布灾害风险预警提示

Schroders PLC减持福莱特玻璃(06865)352.2万股每股作价约26.71港元

第四届海峡两岸峨眉武术文化交流活动开幕天天短讯

美国男子自称临时取消登上失踪观光潜艇被要求参与救援

滨海新区夏日“向海乐活节”启幕邀您嗨玩“一夏”

粽香沁人心浓浓端午情！江苏路街道社工站开展端午节主题活动焦点简讯

中国夫妇在日本旅游抓683只寄居蟹被捕，当地警方怀疑是用于走私，二人坚称是拿来吃环球即时

世界快资讯丨鹤壁市鹤山区：齐心协力绘画卷城区面貌换新颜

环球关注：张家界：博采众长在党建共建中做足基层文章

宁夏银川一烧烤店发生爆炸现场明火已扑灭|世界要闻

6月27日起填报高考志愿这些问题需要提前了解

郴州市应急管理局：检查嘉禾“三类”场所安全隐患提升企业本质安全

湖南高警局：预计今年端午湖南高速流量将提升20％以上全球快资讯

环球即时：“丹青绘盛世翰墨送书香”美术书法作品展开幕

天天新资讯：宁波财经学院毕业生返乡创业将新技术带进“土”产业

面板概念股龙头股有哪些（2023/6/21）每日简讯

德布劳内更新社媒晒照，与妻子以及范迪克夫妇4人一同度假实时

东诚药业：控股子公司蓝纳成拟增资扩股引进投资者世界动态

好人好事丨“落单”学生遇暴雨警方暖心护送-世界快资讯

媒体人：青岛海牛想让阿兰回国效力目前尚在初始运作阶段

为什么word拼音指南不出现拼音_word拼音指南不能生成拼音每日速讯

2023纵览高招会丨河北地质大学：在河北招生计划为2180人计算机科学与技术专业（校企深度合作办学项目）首次招生

全球快消息！敦化：禁毒宣传进校园远离毒品护青春

环球短讯！发现夏之美丨夏至荷花开邕城赏荷正当时