热门看点：GPT-4参数最新爆料！1.76万亿参数，8个2200亿MoE模型，PyTorch创始人深信不疑

首页 > 滚动 > > 正文

2023-06-23 16:46:57 清一色财经

GPT-4远不止1万亿，甚至，还是8个2200亿参数组成的混合专家模型。

家人们，GPT-4的参数可能还真不止1万亿！

(资料图片仅供参考)

近来，美国知名骇客George Hotz在接受采访时透露，GPT-4由8个220B模型组成。

这么算来，8 x 220B = 1.76万亿。

就连PyTorch的创建者Soumith Chintala对此也深信不疑。

GPT-4：8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。

如果真是这样的话，GPT-4的训练可能更加有效。

1.76万亿「八头蛇」？

在GPT-4还未放出之前，GPT-3有1750亿个参数，一众网友猜测GPT-4岂不是要逆天，最起码1万亿。

而George在接受Latent Space的采访时，对GPT4架构的描述着实让人震惊。

他的部分原话如下：

GPT-4每个head都有2200亿参数，是一个8路的混合模型。所以，混合模型是当你想不出办法的时候才会做的。OpenAI训练了相同模型8次，他们有一些小技巧。他们实际上进行了16次推断。

他特别强调，OpenAI做了8个混合专家模型，任何人可以花8倍资金都能训练出来。

也就是说，人们能够训练更小模型更长时间，微调后，就能找到这些技巧。

OpenAI曾经发表类似关于让计算量不变的情况下，让训练更好的算法，比较像BatchNorm和NoBatchNorm。

网友热评

就像George所说，这是8个较小的模型，如果有足够资金训练8个混合模型，这是一个微不足道的解决方案。

所以，GPT-4是GPT-3的10倍，而1月份的所有小圈圈大圈圈的meme实际上是……真的？！

网友得知秘诀后，打算自己也要训练一个LLaMA集合体与GPT-4竞争。

还有网友称，这有点像LLM-Blender。

我早就听到了稍微可信的传言，说GPT-4将是MoE，但从未得到证实。MoE和大约1万亿个参数不会让我感到惊讶，这听起来极为合理。

还有网友进行深度分析：

老实说，我预计这将是人工智能架构的下一阶段。我们已经看到特定任务模型在任务中的表现比一般模型好得多。

因此，将许多特定任务模型组合在一起将是下一个合乎逻辑的步骤。这几乎使升级系统变得容易得多，一次只能处理一个模型。

话虽如此，OpenAI以一种未来可能会，也可能不会的方式做到了这一点。显然，组合系统可能会有更多的小模型，而不是几个更大的模型。

如果这是真的，这是否意味着每个220B模型也有32K的上下文长度？

网友下了功夫，给它命名为「九头蛇」。

1.76万亿「八头蛇」？

网友热评

2023年《创造与魔法》6月23日礼包兑换码领取_每日聚焦

三国无双4张星彩（三国无双星彩无惨）-环球即时

北京市市长殷勇分别会见环球银行金融电信协会全球首席执行官和新加坡淡马锡公司董事长 头条

百万医疗险痛点待解，0免赔额会是下一个风口吗？|当前时讯

印尼撤销新冠疫情大流行紧急状态-今头条

环球关注：湖人选2人签3人！无交易引援佩总遭质疑 美媒晒夏联阵容成安慰

消费复苏的5个真相，藏在618的成绩单里｜特别策划

环球视点！生长链_关于生长链介绍

徐州医科大学_徐州工程兵学院 环球热推荐

上海公交卡退卡余额怎么退款_上海公交卡退卡-环球时讯

变动成本包括哪些科目_变动成本包括哪些 世界讯息

淘宝与天猫有什么区别在哪里（淘宝与天猫有什么区别） 环球观热点

世界热资讯！北京汤河口41.8℃，当前气温全国第一

6·23日24日25日26日27日28日29日30日财运最好的生肖

洗浴中心按摩项目至尊套餐啥意思_洗浴中心按摩项目-世界实时

即时：北京延庆来津推介 90余文旅企业签单

每日速递：偶像服务生（偶像派歌手）

小小CBA嘉年华（全国总动员）端午假期开赛

离岸人民币对美元一度跌破7.2关口 去年11月末以来首次

信息：北京昨日最高气温突破6月历史极值

“三个增强”推进党建与业务深度融合

【热闻】退役士兵安置条例全文解读（退役士兵安置条例全文）

厦门中远海运“新五缘”轮高质量做好服务保障，喜迎海峡论坛开幕_今日热议

招才引智重在“聚”与“用”

高中生物必备85个高频考点总结，背熟拿满分！_环球快看

辽港股份(02880)发行15亿元公司债券 天天快报

当前热讯：韩国政府：绝对不会在禁止进口福岛水产品方面让步

每日速讯：机器人概念本周延续涨势 行业需求开启新一轮上升周期 机构看好这些股

天天头条：浙江省兰溪市发布暴雨蓝色预警

当前关注：GiiMall与OgCloud就跨境电商服务等方面达成合作

【世界独家】上海16区•未来产业简评⑮ 金山区：科创湾区崭露头角，转型步伐还需加快

今年四川省将新建56个平安渡运项目 撤销渡口60个以上—中国新闻网·四川新闻

全球热讯:浙江温岭聚焦公园绿地服务 提升民众“家门口”的幸福感

刚刚！福建高考成绩查询时间公布！ 播资讯

设施农业用地需要审批吗？不再使用时怎么办？

世界快资讯：绚辉龙弱什么属性（绚辉龙 弱点）

世界快消息！全新宾利欧陆GT是您一直想要的Panamera Coupe

你给我听好 陈奕迅 歌词

退税金额怎么算出来的 个人所得税怎么计算 天天报资讯

TOPCon 3.0升级 | 发电增益4.41% 一道新能海南N型电站发电数据实力出圈

实时焦点：第一次下场造电池，TCL中环选在了广州

焦点热文：贾康：财政分配“三元悖论”的内在逻辑 | 《财经》书摘

【文明单位创建】市文旅局赴五峰学习文明旅游示范单位创建经验

深潜器“内爆”，《泰坦尼克号》导演：两起悲剧相似令人震惊|全球实时

世界速递！墙体压密注浆原因及目的是什么

郑州市财贸学校志愿者为二七区洁云路社区居民送上端午节祝福-热点评

三消息：绿军5年2.95亿续约布朗，哈登将加盟湖人，快船交易乔治换取探花签

新能源基金“回血”，机构看好中长期配置价值|天天精选

高温四级应急响应启动！本轮高温是厄尔尼诺“惹祸”吗？ 当前头条

世界速读：队记：上赛季曾有球队用两首轮报价芬尼-史密斯 但被篮网拒绝

真实去过地狱的人，画家醒后竟清晰的画出地狱场景_天天热文

朝为日暮为月卿为朝朝暮暮英文_朝为日暮为月卿为朝朝暮暮什么意思_世界视点

周杰伦等你下课mv下载_周杰伦等你下课mp3下载-热讯

广州浪奇重组转型遭追问交易价格合理性 投资者索赔仍在进行中

赛龙舟、包粽子......各地如何过端午？热闹场面来啦

当前快看：有机化学 叶非、冯世德_对于有机化学 叶非、冯世德简单介绍

Here we go！31岁切尔西门将门迪将加盟吉达国民 每日简讯

商品货号是什么（货号是什么怎么查）_快播

当前焦点!只要冷战从不先道歉的3大星座！

公告 观点网2023年端午假期休刊安排

百折不挠，杭州物业公司四冲港股，去年经营性现金流转负

海内外艺术家以当代艺术“对话”古都大同

北京证监局对中信建投出具警示函 事涉研究报告问题

环球快看点丨武昌 | 秦园路附近1宗住宅用地挂牌出让！

最佳现场综艺（关于最佳现场综艺的介绍）

天天观察：中国经济信心说丨他们为什么纷纷投下“信任票”？

全省检察机关以科技助力公益诉讼检察监督 无人机空中勘验取证为办案赋能

热门：33岁海归博士创业 7年干出一个IPO？2000亿光伏大佬隆基绿能“藏身”背后

细胞培育鸡肉美国获批上市|天天热讯

实时焦点：双向赋能、再创巅峰，酒鬼酒携手华致酒行推出“金内参”

快看：端午安康

中方代表在人权理事会敦促日本就核污染水问题正视国际社会关切 热门

北大光华与腾讯共建AI通识课，涵盖场景、工具、方案三大模块-环球快播报

世界速讯：宏达新材复牌摘帽首日股价暴跌 正遭投资者索赔

上海：推动市场主体开展AIGC工具平台研发

快讯：交大昂立两大股东角力，退市警钟响起，股民怎么办？

世界消息！中国汽车安全系统第一股,产品进入比亚迪供应链,Q1科威特政府入股

包粽子扎香囊制龙舟 柬埔寨学生“沉浸式”过端午

北京市市长殷勇分别会见环球银行金融电信协会全球首席执行官和新加坡淡马锡公司董事长头条

环球关注：湖人选2人签3人！无交易引援佩总遭质疑美媒晒夏联阵容成安慰

徐州医科大学_徐州工程兵学院环球热推荐

变动成本包括哪些科目_变动成本包括哪些世界讯息

淘宝与天猫有什么区别在哪里（淘宝与天猫有什么区别）环球观热点

离岸人民币对美元一度跌破7.2关口去年11月末以来首次

辽港股份(02880)发行15亿元公司债券天天快报

每日速讯：机器人概念本周延续涨势行业需求开启新一轮上升周期机构看好这些股

今年四川省将新建56个平安渡运项目撤销渡口60个以上—中国新闻网·四川新闻

全球热讯:浙江温岭聚焦公园绿地服务提升民众“家门口”的幸福感

刚刚！福建高考成绩查询时间公布！播资讯

世界快资讯：绚辉龙弱什么属性（绚辉龙弱点）

你给我听好陈奕迅歌词

退税金额怎么算出来的个人所得税怎么计算天天报资讯

高温四级应急响应启动！本轮高温是厄尔尼诺“惹祸”吗？当前头条

世界速读：队记：上赛季曾有球队用两首轮报价芬尼-史密斯但被篮网拒绝

广州浪奇重组转型遭追问交易价格合理性投资者索赔仍在进行中

当前快看：有机化学叶非、冯世德_对于有机化学叶非、冯世德简单介绍

Here we go！31岁切尔西门将门迪将加盟吉达国民每日简讯

公告观点网2023年端午假期休刊安排

北京证监局对中信建投出具警示函事涉研究报告问题

全省检察机关以科技助力公益诉讼检察监督无人机空中勘验取证为办案赋能

中方代表在人权理事会敦促日本就核污染水问题正视国际社会关切热门

世界速讯：宏达新材复牌摘帽首日股价暴跌正遭投资者索赔

包粽子扎香囊制龙舟柬埔寨学生“沉浸式”过端午

今日报丨【一统十联“一把手”谈营商㉑】蓄势赋能创新作为

环球新动态：凉山州冕宁县市场监管局开展端午节前安全检查及督促企业年报信息公示工作

中国夫妇在日本旅游抓683只寄居蟹被捕，当地警方怀疑是用于走私，二人坚称是拿来吃全球时快讯

一星给故事节奏，三星给特效，五星给祢豆子天天新资讯

党建引领凝心聚力助推长三角示范区世界级高端纺织产业创新集群拔节生长

端午“粽”头戏海口秀英区推出三条假期旅游线路-世界消息

高温不阻为民心热线排忧送凉意每日速读

端午期间北有高温“烤验” 南有梅雨侵扰疾控部门发防护指南-每日视点

鲍威尔发声在即现货黄金急跌失守1930美元丨就市论市

恒地HENLEY PARK首推148伙折实518.2万港元起今日热搜

【天天聚看点】AI板块几乎全军覆没！A股跌上热搜股民：含泪吃粽子叶！

Keep通过上市聆讯：年营收22亿腾讯GGV五源资本是股东-环球热头条

英联股份（002846）6月21日主力资金净买入2623.10万元环球最新

石嘴山惠农区：让“小三级”工会建起来转起来今日热门

道路运输驾驶员诚信考核自动评

上海2023年高考人数和招生计划均有增加，预计录取率接近往年环球观察

重点聚焦!【党建提升年】延寿县委巡察办党支部：粽叶飘香迎端午志愿爱心送温暖

当前播报:贵州政务服务网上线8周年网上办事体验怎么样？来听群众自己说

北上广深之外还有哪些城市被房企重点投资布局？-当前讯息

郑州独角兽企业“致欧科技”登陆创业板系全省首家互联网家居上市企业_世界热讯

北京市市长殷勇分别会见环球银行金融电信协会全球首席执行官和新加坡淡马锡公司董事长头条

上海纽约大学学费多少一个月上海纽约大学学费多少

赤橙黄绿青蓝紫下联是什么赤橙黄绿青蓝紫下一句_全球快看

石棉绳危害石棉绳环球看热讯

诱人的歌曲诱人

一免到底！这里的优待证应用场景继续扩展世界快讯

新锅开锅的目的是什么新买的锅要ldquo开锅rdquo是什么意思-天天微动态

字帖下载:欧阳询楷书选字帖_字帖下载消息

修己以敬修己以安人修己以安百姓子路善问一题答案_修己以敬修己以安人修己以安百姓今日精选