GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑

首页 > 财经 > > 正文

2023-06-22 20:24:35 清一色财经

GPT-4远不止1万亿，甚至，还是8个2200亿参数组成的混合专家模型。

(相关资料图)

家人们，GPT-4的参数可能还真不止1万亿！

近来，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。

这么算来，8 x 220B = 1.76万亿。

就连PyTorch的创建者Soumith Chintala对此也深信不疑。

GPT-4：8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。

如果真是这样的话，GPT-4的训练可能更加有效。

1.76万亿「八头蛇」？

在GPT-4还未放出之前，GPT-3有1750亿个参数，一众网友猜测GPT-4岂不是要逆天，最起码1万亿。

而George在接受Latent Space的采访时，对GPT4架构的描述着实让人震惊。

他的部分原话如下：

GPT-4每个head都有2200亿参数，是一个8路的混合模型。所以，混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次，他们有一些小技巧。他们实际上进行了16次推断。

他特别强调，OpenAI做了8个混合专家模型，任何人可以花8倍资金都能训练出来。

也就是说，人们能够训练更小模型更长时间，微调后，就能找到这些技巧。

OpenAI曾经发表类似关于让计算量不变的情况下，让训练更好的算法，比较像BatchNorm和NoBatchNorm。

网友热评

就像George所说，这是8个较小的模型，如果有足够资金训练8个混合模型，这是一个微不足道的解决方案。

所以，GPT-4是GPT-3的10倍，而1月份的所有小圈圈大圈圈的meme实际上是……真的？！

网友得知秘诀后，打算自己也要训练一个LLaMA集合体与GPT-4竞争。

还有网友称，这有点像LLM-Blender。

我早就听到了稍微可信的传言，说GPT-4将是MoE，但从未得到证实。MoE和大约1万亿个参数不会让我感到惊讶，这听起来极为合理。

还有网友进行深度分析：

老实说，我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务中的表现比一般模型好得多。

因此，将许多特定任务模型组合在一起将是下一个合乎逻辑的步骤。这几乎使升级系统变得容易得多，一次只能处理一个模型。

话虽如此，OpenAI以一种未来可能会，也可能不会的方式做到了这一点。显然，组合系统可能会有更多的小模型，而不是几个更大的模型。

如果这是真的，这是否意味着每个220B模型也有32K的上下文长度？

网友下了功夫，给它命名为「九头蛇」。

1.76万亿「八头蛇」？

网友热评

只用平板也能办公？我们在「野趣办公吧」任性了一次…… 全球热文

端午小长假第一天：短途客流为主 扬州境内高速通行顺畅

端午节期间，武汉天河机场预计运送旅客20.19万人次

AVA战地之王：新赛季箱子更新！|全球新消息

每日热议!打造中国算力高地 超算中心赋能济南加“数”度

实时：释放经济新活力 假期民俗文化热潮带动消费市场持续升温

宁德时代吴凯申请辞去公司董事、副总经理职务，仍担任首席科学家

环球头条：女朋友生日怎样穿得像邪恶女巫？异地送什么礼物最合适？

全球讯息：重拾古籍中家国精神 端午文化代代相传

银川爆炸烧烤店连夜注销 经营者名下9家公司身家千万 焦点讯息

一则官宣，令金球奖之争变天！梅西遭官方打压，姆总获利有望逆袭

官图抢先看！豪华驾享SUV全新一代凌云焕新升级！

百“模”大战愈演愈烈 AI大牛股齐出手：募资 搞大模型！

仙宗大掌门最强阵容搭配，新手攻略大全

包装机械上市公司龙头名单是哪些？（2023/6/22）

【环球快播报】过夏至，迎端午，养生保健重点全在这儿了……

三中三规律高手论坛_三中三

思语app怎么弄钱进去 思语app转账方法介绍

便秘溲赤是什么意思_便秘是什么意思|天天聚看点

迎端午 居民群众“粽”享美好生活

小米Redmi Note 12R上架 1099元|全球热头条

蓝田玉印章、“彩虹女神”专属印章……陕西高校毕业礼物太卷啦 世界微速讯

石家庄藁城区：滹沱花海 扮靓夏天-当前要闻

银川烧烤店爆炸事故 警方已介入调查-每日讯息

世界快讯:释放经济新活力 假期民俗文化热潮带动消费市场持续升温

巴黎市中心一建筑发生爆炸并起火 已致37人受伤

实时：科华生物: 关于不向下修正“科华转债”转股价格的公告

天地数码: 关于部分限制性股票回购注销完成暨不调整可转债转股价格的公告 焦点速看

眼底出血是怎么治疗_眼底出血治疗最佳方法_今日热文

睫毛掉了还会重新长出来吗_睫毛

定性研究和定量研究的概念_定性研究_天天报资讯

宁夏启动“康乃馨 爱心一元捐”关爱困境妇女公益活动

环球最新：民盟盟员唐克轩当选欧洲科学院院士 愿天下无“疟”

有效酸度(对于有效酸度简单介绍)_世界聚焦

知天命是指什么年纪_知天命是指多少岁的年纪 世界聚看点

全球速讯：夏天，连衣裙怎么穿更好看？学这位小个子博主的穿法，显高有气质

用时代的眼光读懂兵_天天头条

家里为啥不挂梅花 家里为啥不挂梅花有哪些寓意 当前讯息

当前要闻：蚝油怎么用味道最好的方法和技巧讲解

洁面膏和洗面奶有什么区别？选哪种洗面奶适合？

奔驰发布了一台诺基亚

大运会倒计时36天|乘风破浪 百舸争流 环球今日讯

RMC：巴黎与米兰双雄竞争小图拉姆，并对扎哈感兴趣 天天最资讯

世界今热点：肚脐里的脏东西，抠了会怎样

全球新动态：凯迪仕市场份额逐步流失：消费者投诉不少，质量隐患层出不穷​

农村养什么品种的鸡最好卖？_当前短讯

李凯尔逐渐被实锤！微博改成中文名，经纪公司已运营了！

【世界新要闻】腰不好睡什么床垫好(腰不好的人睡什么床垫?)

正泰 电气

今日要闻!男孩与父亲赌气徒步走高速，民警及时劝阻并送回家长身边

喜报！华山医院获6类科普奖项丨上海市健康科普推优选树活动颁奖

汉中端午体验游诚邀八方游客，70多项文旅活动拉满节日氛围感！

【全球速看料】火火火木燊名字（火火火木）

东安县石期市镇：节前敲警钟 廉洁过端午

三变科技（002112）6月21日主力资金净卖出1063.22万元

2023年孙吴县端午节群众踏青活动期间有关事项的联合通告|百事通

商洛市公路局古树塬治超站“四个到位”深入开展“安全生产月”活动|世界快消息

“千万工程”调研行丨扮靓海上花园 焕发发展活力——浙江温州洞头乡村振兴一线观察

广汽集团一家独大？7月车市消费洞察

魅族20手机获推Flyme 10.0.1.2A更新，针对系统等进行多项优化

东越市政：提升园建设施 营造舒心游园环境

当前速看：注意！科力尔：监事曾利刚计划减持公司股份不超过6.3万股

医疗事故鉴定不服该怎么办 头条焦点

海南又一临床真实世界数据应用试点品种获批上市_消息

@柳州人，首套房贷利率低至3.6%，还有这个重磅消息！

世界观热点：中国哪家的猪预混料比较好 (猪十大预混料品牌大全)

世界通讯！天天速看：世界观速讯丨环球快播：世界新动态：又一批货代将暴雷？3家公司发出声明_全球播报

天天快报!银川多家餐饮店使用液化气罐，老板称管道燃气初装费需要三四万，燃气公司称现在初装费比以前便宜

记者实地探访银川烧烤店爆炸事故现场 当前热门

快来打Call！6个广州地标产品亮相首届地标广货手信节

热点聚焦：TSA：美航空旅客安检人数创疫情以来单日最高水平

交大昂立两大股东角力，退市警钟响起，股民怎么办？ 天天亮点

世界速讯：信息时代,如何守护我们的肖像权

【焦点热闻】帕金斯：湖人应该追求追梦 用他和AD来对抗约基奇

全球观天下！“乌珠穆沁白牛”为何这么“牛”？

乌克兰国家紧急服务中心：赫尔松地区被疏散灾民逐渐开始返乡 每日关注

辽宁昌图县银校共建送安康 环球快播

中国恒大：预期在7月31日之前发布2021年、2022年中期及2022年业绩-当前消息

端午小长假第一天：短途客流为主扬州境内高速通行顺畅

每日热议!打造中国算力高地超算中心赋能济南加“数”度

实时：释放经济新活力假期民俗文化热潮带动消费市场持续升温

全球讯息：重拾古籍中家国精神端午文化代代相传

银川爆炸烧烤店连夜注销经营者名下9家公司身家千万焦点讯息

百“模”大战愈演愈烈 AI大牛股齐出手：募资搞大模型！

思语app怎么弄钱进去思语app转账方法介绍

迎端午居民群众“粽”享美好生活

蓝田玉印章、“彩虹女神”专属印章……陕西高校毕业礼物太卷啦世界微速讯

石家庄藁城区：滹沱花海扮靓夏天-当前要闻

银川烧烤店爆炸事故警方已介入调查-每日讯息

世界快讯:释放经济新活力假期民俗文化热潮带动消费市场持续升温

巴黎市中心一建筑发生爆炸并起火已致37人受伤

天地数码: 关于部分限制性股票回购注销完成暨不调整可转债转股价格的公告焦点速看

宁夏启动“康乃馨爱心一元捐”关爱困境妇女公益活动

环球最新：民盟盟员唐克轩当选欧洲科学院院士愿天下无“疟”

知天命是指什么年纪_知天命是指多少岁的年纪世界聚看点

家里为啥不挂梅花家里为啥不挂梅花有哪些寓意当前讯息

大运会倒计时36天|乘风破浪百舸争流环球今日讯

RMC：巴黎与米兰双雄竞争小图拉姆，并对扎哈感兴趣天天最资讯

全球新动态：凯迪仕市场份额逐步流失：消费者投诉不少，质量隐患层出不穷

正泰电气

东安县石期市镇：节前敲警钟廉洁过端午

“千万工程”调研行丨扮靓海上花园焕发发展活力——浙江温州洞头乡村振兴一线观察

东越市政：提升园建设施营造舒心游园环境

医疗事故鉴定不服该怎么办头条焦点

记者实地探访银川烧烤店爆炸事故现场当前热门

交大昂立两大股东角力，退市警钟响起，股民怎么办？天天亮点

【焦点热闻】帕金斯：湖人应该追求追梦用他和AD来对抗约基奇

乌克兰国家紧急服务中心：赫尔松地区被疏散灾民逐渐开始返乡每日关注

辽宁昌图县银校共建送安康环球快播

世界观察：民生银行济南槐荫支行开展“普及金融知识守住钱袋子”宣传活动

市水利和湖泊局组织开展“端午安康洁净长江”志愿服务活动

在黄色网站上发现疑似他人被迷奸的视频我该怎么办我该报警吗

税收服务保驾护航企业发展迈入快车道

偶遇交通事故，他秒速“上岗”！安全感拉满天天快播

这家夫妻店刚扭亏就想IPO，如此急匆匆融资为啥？全球球精选

桌面主题下载（桌面主题包）环球快报

当前看点!话剧《初步举证》推中文版主演辛芷蕾与你相约成都端午假期

端午小长假第一天：短途客流为主扬州境内高速通行顺畅

教你如何省钱制作教室鬼屋，送弟弟最佳节日惊喜！天天速读

在上海，看展如同完成一场行为艺术天天速读

拉夏贝尔正式破产清算网友：整个青春的衣柜！热门

她悄悄凉掉，《甄嬛传》也救不了世界快播

端午佳节他们依然坚守工地推进项目建设

当前动态:《故乡，别来无恙》首发预告任素汐领衔“天府姐妹”重塑故乡命题

根据苹果的imei就可以解锁苹果了?_苹果imei解锁软件

农业银行传世之宝金条价格今天多少一克（2023年06月22日）观焦点