商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

2023-03-15 15:02:31 中国网财经

3月14日，商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”，在多模态多任务处理能力方面实现多项全新突破，其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持，向通用人工智能迈出坚实的一步。“书生(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布，并持续联合研发。

“书生2.5”拥有30亿参数，不仅是世界上开源模型中ImageNet准确度最高、规模最大的模型，也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。目前，“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源，为学术界和产业界的多模态通用模型研发提供有力支撑。

(资料图)

当前，人工智能技术的发展正面临着大量跨模态任务的挑战，为满足快速增长的各式应用场景需求，发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建，可接收处理各种不同模态的输入，并采用统一的模型架构和参数处理各种不同的任务，促进不同模态和任务之间在表示学习方面的协作，逐步实现通用人工智能领域的融会贯通。

迈向AGI通用人工智能，大幅提升通用场景感知和理解能力

在当今快速增长的各式应用场景需求下，传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下，“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下，可以大幅提升场景感知理解能力，准确地辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆的决策规划提供有效信息输入。

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除了解决例如自动驾驶和居家机器人这类复杂问题的能力，“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务，满足各种需求。

除了全图级别的以图生文，“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

“书生2.5”同时具备AIGC“以文生图”的能力，可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等，生成写实的Corner Case训练数据，进而训练自动驾驶系统对Corner Case场景的感知能力上限。

“书生2.5”还可根据文本快速检索出视觉内容。例如，可在相册中返回文本所指定的相关图像，或是在视频中，检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，可实现开放世界视频或图像中物体检测及视觉定位。

三位一体，高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合，即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型(LLM)和用于多任务的兼容解码建模大模型(Uni-Perceiver)。

其中，InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式，从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间，将不同任务统一为相同的任务范式，从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外，“书生2.5”还创新性地引入了任务级别的稀疏激活机制，使其具备高效的多任务协作能力。

在视觉主流图像分类数据集ImageNet上，该模型仅基于公开数据便达到了90.1%的Top-1准确率。这是除谷歌与微软之外，唯一准确率超过90.0%的模型，值得一提的是，谷歌与微软均未公开模型及额外数据集。“书生2.5”同时也是世界上开源模型中ImageNet准确度最高、规模最大的模型。

除了高精确度的语义理解能力外，“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上，其取得了65.4的mAP，是世界上唯一超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩。

在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

开源模型社区性能最强多模态大模型，加速学术和产业界多模态通用模型研发

即日起，“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源，成为目前开源模型社区能提供的性能最强的多模态大模型。

OpenGVLab致力于通用视觉模型的开源社区建设，开源项目覆盖数据、模型、评测基准全链路，为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面，OpenGVLab构建了千万级超大规模精标注数据集，涵盖了图像分类、目标检测等视觉核心任务的标注，同时包括各类图像中的属性、状态等的精细标注，显著降低了数据的采集成本。在模型方面，OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型，助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练，并供所有对人工智能技术感兴趣的人士自由体验。

OpenGVLab还提供了多任务、多模态的通用视觉评测基准，可以提供权威的评测结果，推动基于统一标准的公平和准确评测，加快通用视觉模型的产业化应用步伐。通过开源社区的建设，OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动通用AI技术的规模化应用。

当前，“书生”还在持续学习、不断进步，致力于实现多模态多任务通用模型技术的突破，驱动通用人工智能技术的创新应用生态，为推动人工智能学术、产业发展做出贡献。

(以上图片由商汤科技授权中国网财经使用)

知识课堂 篮球赛总结怎么写

戴兵呼吁推动国际社会在叙利亚反恐问题上加强合作

城商行进军“跨境理财通” 上海银行入围

青少年科技素养提升计划在农村培训逾万教师 超31万小学

从“节能减排”到“绿色发展” 民航局印发《“十四五”

“小份菜”引领新风尚

粤港澳大湾区年货班列开行数量创历史新高

应急管理部启动低温雨雪冰冻灾害Ⅳ级应急响应

虎虎生威振精神——来自澳门的新年祝福

城市对青年更友好 青年在城市更有为

香港资审会裁定57名选委会当然委员登记有效

拿什么来保护数据安全？基层数据安全体系建设待提升

粤澳警方联合打掉一跨境有组织犯罪团伙

香港大学首推“顶尖运动员入学计划”

香港应科院将拓宽在内地的发展

香港入境处：2021年访港旅客同比跌97.4%

香港警方共拘捕162人涉嫌违反香港国安法

当前速读：5月16日生意社瓦楞原纸基准价为2856.00元/吨

对话up主 | 王裕民：从“闪客”到“皮影动画王”-环球要闻

司法救助来解烦“薪”事 全球速看料

成本700 你也有个徕卡数码相机

云南石屏推动特色产业转型升级（高质量发展在一线）-每日看点

有样学样！塔图姆赛前收到了训练师发来的库里抢七50分赛场照

乐福调侃：我总能做出完美选择 第一选择就是加盟热火而不是76人_全球新要闻

“三夏”时节云南抢种抢收保丰收 已收获夏粮1248.06万亩

环球热文：存款利率全方位下行是否会触发存款搬家，谁会成为替代品？

每日热议!咸宁消防开展消防产品宣传进社区活动

金泰熙《有庭院的家》曝海报 林智妍成家暴受害者

关于读书手抄报内容大全_关于读书的手抄报内容名人名言

天天即时：深圳大气江苏无情？郭晓鹏一事反转 知情人：他是代表广东受的伤

世界视讯！玻璃纯碱共振下跌 后市还有多少空间？

河源农商行股权代持牵出腾邦股东，大股东海印股份跨界金融野心受挫|环球精选

全球新资讯：安邦资产处置再下一城：太平人寿30亿元接下浙商银行股份

小学一年级下册数学口算题100道_二年级下册人教版数学口算题大全

每日观察!创业板食品公司哪家强(食品上市企业市值排名)

检察机关开展调研 法治护航安心养老|新动态

元丰改制示意图_元丰改制

当前消息！出租率均超90%！实探保租房公募REITs底层资产

世界快播：中国交通教育研究会学术年会聚焦高质量发展

淘宝拒收运费险会生效吗（淘宝拒收运费谁承担）_每日热讯

今日快看!海西乌兰：“防灾减灾”宣传入耳入心

曼柳村_对于曼柳村简单介绍

当心！走路时出现这些情况，可能是疾病信号-当前头条

环球速递！马尾举办纪念妈祖诞辰1063周年纪念活动

兰州市红古区教育系统开展研学实践活动 环球观速讯

环球精选！地氯雷他定分散片等4种处方药转为非处方药

不只输出产品更要输出技术、资本 新能源产业链公司加速“出海”

今头条！华纬科技：星期二新股上市

全球热头条丨同享科技：5月12日融资买入1.17万元，融资融券余额13.14万元

绿军淘汰76人晋级东决！塔图姆51+13+5！恩比德18中5，哈登11中3

第五人格深渊的呼唤Ⅵ全球总决赛小组赛 4月18日 第四场WBG vs ACT第二局

焦点消息！唱吧官网电脑版下载_唱吧官网

永州市公安局凤凰园分局成功劝阻一起电信诈骗案件

【天天聚看点】广州越秀：大塘街道召开商务楼宇高质量发展座谈会

小果然怎么生蛋_小果然怎么孵化

天天热推荐：玻璃熔点是多少度_玻璃熔点

礼献母亲“花”式表达爱，高铁餐车开展母亲节主题活动 快看

媒体人：韦世豪在网上不该使用地域黑言论，公众人物要守住底线_今日聚焦

甘蔗有红色斑点还能吃吗 甘蔗能放冰箱吗

全球焦点！世乒赛 | 国乒完成德班首训 12名陪练担当幕后英雄

天天视讯！怎么赚钱好赚？

今日讯！漏电开关跳闸的原因与解决办法 漏电开关跳闸的原因

【新视野】垃圾分类的原则包括_垃圾分类的原则

全球微头条丨下个月健康运最佳的3大星座!接下来身心愉快,快乐每一天！

义乌市一季度实现工业用地出让“开门红”

歌手演唱会都在闹退票？ 电子门票背后的那些门道 全球独家

微信聊天彩蛋大全_微信聊天彩蛋-当前热讯

抢抓健康消费新机遇

环球快消息！切实保障快递员合法权益

【环球聚看点】瑞典国庆日_关于瑞典国庆日介绍

"PE超25倍我基本不买！"广发基金程琨：像企业家那样挑生意，像商人那样挑剔价格-当前观察

【世界报资讯】80、90后的青春记忆！《街霸》过气了吗？

勒沃库森CEO：我确信阿隆索下赛季会继续执教药厂 环球讯息

qq别人把你拉黑了有什么表现(qq别人把你拉黑了怎么办)_世界要闻

建德市委书记富永伟：将把文化产业发展放到更加突出的位置

莒县羊肉汤做法?

免费听歌的时代，要过去了？

【环球新视野】五一假期可以拼出9天假吗2023(五一假期拼多多可以休息吗)

环球观速讯丨qq励志网名大全男生_qq励志网名

《流浪汉模拟器》材料怎么获得？材料获取方法

知识课堂篮球赛总结怎么写

青少年科技素养提升计划在农村培训逾万教师超31万小学

城市对青年更友好青年在城市更有为

司法救助来解烦“薪”事全球速看料

乐福调侃：我总能做出完美选择第一选择就是加盟热火而不是76人_全球新要闻

“三夏”时节云南抢种抢收保丰收已收获夏粮1248.06万亩

金泰熙《有庭院的家》曝海报林智妍成家暴受害者

天天即时：深圳大气江苏无情？郭晓鹏一事反转知情人：他是代表广东受的伤

世界视讯！玻璃纯碱共振下跌后市还有多少空间？

检察机关开展调研法治护航安心养老|新动态

兰州市红古区教育系统开展研学实践活动环球观速讯

不只输出产品更要输出技术、资本新能源产业链公司加速“出海”

第五人格深渊的呼唤Ⅵ全球总决赛小组赛 4月18日第四场WBG vs ACT第二局

礼献母亲“花”式表达爱，高铁餐车开展母亲节主题活动快看

甘蔗有红色斑点还能吃吗甘蔗能放冰箱吗

今日讯！漏电开关跳闸的原因与解决办法漏电开关跳闸的原因

歌手演唱会都在闹退票？电子门票背后的那些门道全球独家

勒沃库森CEO：我确信阿隆索下赛季会继续执教药厂环球讯息

安卓 14 将推送首发推送机型公布|速递

事关1000亿资金！REITs项目迎重磅指引，要求合理确定战配比例，不打价格战全球观天下

十七部门联合部署平安寄递专项行动集中整治寄递渠道安全隐患

雪花飘飘起了多少爱恋是什么歌_雪花飘飘看热讯

SMM调研：锌价大幅下跌触及近两年低位镀锌下游企业利润如何？

天天看热讯：筑梦公益上海社会组织年度联合招聘开启

安徽推进城市基础设施生命线安全工程建设从可防可控向事前预防转型

汉沽街道王园里社区开展“党建引领聚合力垃圾分类我先行”母亲节趣味活动_天天快看点