腾讯云率先打响「大模型应用」信号枪

2023-06-22 13:03:09 光子星球

撰文| 吴坤谚王潘

【资料图】

编辑| 吴先之

在大模型赛道话不太多的腾讯，派出腾讯云向行业交出了自己的一份答卷。

2023年6月19日，腾讯云举办行业大模型及智能应用技术峰会，公布腾讯云在B端方向的MaaS（modle-as-a-service，模型及服务）技术方案，以及多款SaaS智能应用升级、产业客户应用落地进展。

其中最值一提的是腾讯云并未选择认知更为广泛的通用大模型，而是选择了基于腾讯云AI技术底座而预训练的行业大模型，也就是垂直领域大模型。据了解，目前腾讯云业已发布的垂类领域包含金融、政府、文旅、传媒、教育等，企业客户只需要以上述预训练模型为基础，使用行业数据训练，即可获得具备业务能力的专属大模型。

换句话说，腾讯云在发布会上展示的能力不在于模型本身，而在于大模型的部署与应用。

实际上，早在今年大模型全面爆发前，推进模型的垂直领域应用便已成为玩家们的共识，高校与业界都积累了不少垂直领域中小模型。只是在缺乏相应技术基底的情况下，即使这些模型的执行效率、安全性、可解释性都差强人意，但其训练与部署应用的边际成本迟迟难以降低，预留的创新空间难以支撑其商业化。

而今得益于由OpenAI发现的模型涌现能力以及以此为基础而衍生的训练策略，通用模型能力加速拓展，也为垂直模型快速训练与部署打下基础。基于这些成功经验，腾讯云正在迈出大模型落地探索和市场教育的第一步。

行业大模型正当时

现代教育中普遍采取的人才培养模型是T字型模式。我们往往会进行长时间的通识学习，在打牢基础并发展出一定个人思维能力后参加高等教育，深入专研某个领域。人工智能集大成者的大模型似乎也是如此，在T字形发展的往复周期中，进入了竖向周期，而信号枪则由腾讯云率先打响。

腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生于技术峰会上表示，比起通用大模型，企业更需要针对具体行业的大模型，并结合企业自身的数据进行训练和精调，以打造出更实用的智能服务。企业对提供的专业服务要求高且容错性低，因此使用的大模型必须具备可控、可追溯和可修正的特点，并经过反复充分的测试。

众所周知，通用大模型话题度满满，但在能力上过于泛化，仅凭借通识能力难以解决业务方面的现实问题，以至于通用大模型的训练与调优更多地是在探索大模型的产出边界，而非落地，从而解锁其下一个价值级别。

与之相比，行业大模型最为明显的优势在于其聚焦专业领域的对齐能力，即模型的输出与使用者的目标和兴趣相对应的程度。

一个典型的例子是AGI，谷歌旗下人工智能前沿部门DeepMind研究员Rohin Shah认为，不正确的微调或错误泛化可能会导致AGI追求一个不正确的目标，未对齐的AGI将会产生灾难性的后果。换句话说，即使是通用大模型，其外部输出与内部微调都需要与人类的普世价值观对齐，遑论有强烈落地需求的垂直专业领域。

即使是写代码这样通用大模型普遍发力的高需求高价值垂直领域，目前在通用模型中所展现的能力也难言靠谱。无数利用已开放测试的大模型进行代码测试的程序员们对此应该有更深刻的认知。

何况行业大模型针对的是特定领域任务，不涉及更多泛化通识，因此不需要庞大的通用模型为基底来进一步训练，也不需要在推理和内存上进行过多的堆砌，追求“大力出奇迹”。

腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声在与我们对话时提到，虽然业内的大模型在参数规模上不断上涨，但腾讯云更关注的是如何以最有效、最低成本的手段去解决客户的问题。相比之下，参数量其实没那么重要。因为参数规模越大，其价值体现与解决问题的能力需要更多算力与数据集的支撑，其训练与推理的成本无论是对腾讯云还是对企业客户而言都难以承担。

技术的价值体现在于落地，而无法落地的技术只是空中楼阁，在业界春秋笔法中等待价值虚像被打破。大模型之前的元宇宙、区块链等风口已然是最佳例证。

行业模型显然是更适合的解决方案，无论是腾讯云还是企业客户。那么，需要深究的问题便是腾讯云的解决方案，即经由行业数据训练的行业大模型能否在行业理解中展现比同参数通用大模型更强的能力。

技术底座决定上下限

大模型时代，自然语言处理、计算机视觉、语音识别等AI需求井喷，只是这些基于大模型的应用通常需要庞大的计算资源和存储空间，以及高效的部署和管理机制。为避免企业普遍需求下“重复造轮子”的资源浪费，模型即服务（MaaS）作为一种新兴的技术服务模式应运而生。

也就是说，MaaS服务的核心能力实际上是帮助企业完成AI应用从“手工作坊”向“工厂模式”的跃升。

而腾讯云的解决方案如下全景图所示，以“一站式行业大模型精选商店”的形式为企业客户提供包含模型的预训练、精调、应用开发等能力的工具链，帮助企业高效率、高品质、低成本地创建和部署AI应用。其中对垂直领域能力起决定作用的是部署模型的基础架构，也就是技术底座部分。

其中的基础设施部分分别对应AI三要素中的算力与数据两方面，其一是智能算力支撑——高性能计算集群 HCC，这项腾讯云于4月最新发布的技术可以使算力性能较前代提升3倍，为大模型训练提供高性能、高带宽和低延迟的智算能力支撑，配合自研星脉高性能计算网络，可以为HCC计算集群带来 3.2Tbps 业界最高互联网带宽；其二是数据检索支撑——向量数据库Tencent Cloud Vector DB，经腾讯海量业务场景验证，在提供高吞吐、低延迟、低成本、高可用、弹性扩展能力的前提下，日均处理向量检索千亿次，更是同时支持标量+向量的混合检索。

如果说基础设施为企业打造的专属模型提供上限，那么行业大模型便是企业专属模型的下限。据汤道生介绍，腾讯云打造的行业精选模型商店覆盖金融、文旅、政务、传媒、教育等10大行业，提供超过50个解决方案，包含了智能客服、ORC识别、政务咨询、教育咨询、媒介管理等场景。

以文旅场景为例，腾讯云的某位头部文旅客户的传统智能客服需要人工进行对话配置且知识维护量大、耗时长，但运营人力有限、人力配置成本高，且涉及订单等复杂业务场景，长期未能完成业务闭环。但凭借长期业务积累的in-house数据，结合腾讯云文旅行业大模型能力，通过腾讯云TI平台精调并构建了专属文旅客服大模型，相比传统职能客服增加了意图识别、长文本识别与答案生成能力，让该文旅企业无需人工配置对话流程，即可端到端解决业务问题。

除了客户企业的成本控制与应用优化外，腾讯云以行业大模型为基础，辅以行业数据精调的落地路径恰好可以盘活当下经济生态中多个行业与企业占有的沉默行业数据，让数据价值得以展现。

曾经，许多行业的in-house数据被视作资产的原因在于大数据之下的用户画像等基础运用，其价值红利已逐渐出尽。而今，行业数据可以被用作企业专属模型的养料，这不仅让数据资产重回价值高地，更为行业带来了新的想象空间。

值得一提的是，企业敝帚自珍的大量数据在模型训练中使用也意味着曾经对精调（Finetune）的固有印象被打破，即精调不再局限于小规模数据集，而是规模更大且兼具纵深的行业数据集。作为大模型最重要的“手艺活儿”，腾讯云的解决方案中自然也不乏数据相关的方案。

数据仍是落地关键

腾讯云MaaS方案的中间层TI平台聚焦数据这一关键要素，涵盖了数据的标注、训练和应用全流程。

在数据标注方面，高质量的标注数据集相对数据规模对大模型训练的影响更大。除了业内尚未攻破的OpenAI神话外，谷歌于5月意外泄漏的内部研究人员文章也证实了这一点。

中文互联网中广告等干扰信息进一步加剧了数据清洗难度，中文大模型训练对数据服务的要求也水涨船高。在腾讯云看来，大模型训练和优化所需的高质量数据集必须经过清洗和预处理，以消除噪声、填补缺失值并确保数据质量。如果导入的数据质量低，那么训练出来的模型也会有问题，即“garbage in，garbage out”。

数据的训练和应用同样重要。要知道，垂直领域模型的构建并非简单地向通用模型投喂行业数据，而是牵涉多方面技术与技巧的“手艺活儿”。例如epoch（训练样本在神经网络中完整传递一次）值设置，如果epoch设置过高，将导致模型的灾难性遗忘，丧失既有能力；而epoch设置过低，模型很可能根本学不到新知识，相当于白跑一趟。

这三项服务均在腾讯云的行业大模型案例中有所体现，比较典型的是与不同行业伙伴训练出的多场景智能客服。金融、政府、教育等不同的行业数据在标注后结合对应行业大模型精调，即可展现业务所需的模型能力。

例如知识维护量大，冷启动知识配置耗时长，且运营方面需要持续投入的金融客服场景，某国家首批股份制商业银行便在腾讯云的技术与平台支持下，运用积累的行业数据构建了专属大模型并进行私有化部署。

至于中间层的数据平台之下的加速组件，其功能在于模型训练与精调的增效。据了解，太极加速组件在传统CV、NLP算法模型的基础上，通过异步调度优化、显存优化、计算优化等方式为模型构建增速，相比行业常用方案性能提升30%以上。

只是在模型落地中，模型的归属权以及数据安全问题仍难以避免。

以腾讯云所在的云计算行业为例，早在MaaS模式兴起前，云端部署便是云计算产业亟待解决的行业问题。巨头企业可以豪掷千金做私有化部署，而中小企业却只能采取公有云托管的形式，即使如此，巨头企业也必须面对私有部署后高昂的迁移成本。

大模型的部署、归属以及更基础的数据安全在企业客户看来，自然也是重中之重。比较典型的便是ChatGPT的API接口模式，导致不少企业遭遇数据泄露，以三星、苹果为首多家巨头企业内部早早便禁用了ChatGPT API能力。

因此，腾讯云在全景图之外更可贵的服务在于针对客户需求提供私有化部署、公有云托管、混合云部署等灵活部署方案，而算力使用、模型的知识产权归属等问题同样是case by case，让企业客户在享有高质量数据与模型服务的同时保障了私有数据stay in-house，真正做到了“量体裁衣、普惠适用”。

结语

“对于工业革命来讲，早一个月把电灯泡拿出来，在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好。”

自马化腾在2023Q1财报会议上回应腾讯在大模型赛道“失声”起已有一个月，腾讯云加码行业大模型“先声夺人”，这折射了大模型赛道中，互联网大厂在商业化落地的一次转向。在媒体热潮逐渐过去，通用大模型发展进入平稳期的当下，落地才是行业应该为模型需求者提供的能力。

那么，垂直与通用是否是截然相反的路径？

在大模型领域内，答案当然是否定的。因为垂直模型与通用模型的训练方法基本相通，即使是在代码层面也是如此。

大模型“炼丹”的特殊性，决定大模型赛道中可以同时存在两种路径，典型的就是在100B参数下探索人工智能边界以及在7B参数下进行快速落地部署和应用，两者殊途同归，均以落地为目的，只是目前7B走在了通用的前面。可以肯定的是，大模型赛道中“两条腿走路”的现象将持续存在。腾讯云凭借MaaS方案，已经成为行业内首个成功迈出了右脚的玩家。

图知道｜今日夏至：绿筠尚含粉，圆荷始散芳

洪都拉斯发生监狱暴乱至少41人死亡

健康体检进工地

天天快报!疑似魅族21系列曝光：骁龙8 Gen3＋超窄直屏大底主摄

环球新资讯：石药集团6月21日根据股份奖励计划购买1000万股

沈梦辰穿学院风参加金鹰节，气质温柔大长腿吸睛，杜海涛赚大发了

都说美国经济要完，可为何中美GDP差距再拉大？甚至只占美国64％

环球时讯：哥德巴赫猜想是什么（哥德巴赫猜想过程）

华硕灵耀X Ultra评测：华硕轻薄科技与性能的完美结合

打工人的愤怒！推特员工发起集体诉讼，要求兑现数千万美元奖金|焦点速递

离婚房产一定要转名吗|今日关注

【当前热闻】银行财眼｜招商银行两分行领3张罚单 合计被罚1230万

020伤寒论

《庆余年2》目前更换了5个演员|全球速递

每日看点!显示本地连接没有有效的ip配置是什么意思_本地连接无有效ip配置

163期曾哥排列三预测奖号：金胆推荐|每日资讯

战地五辅助瞄准在哪里_战地5辅助瞄准设置在哪里简介介绍|世界滚动

环球即时看！庐山景区看瀑布另收费35元，套路游客观感太差

日本福岛市民游行反对核污水排海：政府连民众基本疑问都不回答 当前短讯

区消防救援大队到朱村街调研指导消防安全工作

慰问演出走进敬老院

【天天播资讯】雷军海外发起“有奖 P 图挑战” 获胜可得小米13 Ultra手机

今日观点!今年全疆机场旅客吞吐量已超1650万人次

2023年浙江高考各批次志愿填报时间及录取时间一览

今日快看!红酒烧烤 焉耆醉好 焉耆红酒烧烤节开幕

观察：铁路端午小长假运输今日启动！预计发送旅客7100万人次

HarmonyOS 4.0操作系统开启开发者Beta版招募，支持多款硬件设备

纸枪的折法 纸枪的折法可发子弹,威力大 视焦点讯

生死战！U17国足迎亚洲杯最强对手，赢球出线：仍需看别人脸色|环球看点

安徽省市场监督管理局开展限制粽子过度包装治理工作调研督导 新动态

兰州百合：兰州百合 甜美好合

天天微头条丨中航证券：给予东方电气买入评级

南京邮电大学：产教融合贯通培养集成电路人才

电信5g只有300mbps

大病住院怎么办？保险怎么报销？

全球观点：天元区新马小学：端午粽飘香 师生展风采

【当前热闻】李想，在微博“造车”

全球今日报丨官方泄密？幻塔约了一帮玩家见面后，游戏明年的内容都被捅出来了

头条焦点：新湖中宝30亿小公募债项目状态更新为“已反馈”

青山区签约多个新能源项目，助推产业转型升级

浙江省防指启动防汛Ⅳ级应急响应 当前观察

广联达跌8.09% 中信证券安信证券在其高位喊买入

金融数智化由繁至简，华为云数智算融合为良方

广州银行2022年核销近30亿接近净利水平，逾期贷款增超8成

天天滚动:7月避开大热新疆，去圣地甘南，看一场藏地人文的风光盛宴！

火焰之纹章新纹章之谜人物_火焰之纹章纹章之谜_热议

临时演员招聘是真是假_临时演员招聘-即时焦点

百万医疗险痛点待解，0免赔额会是下一个风口吗？

粤港澳大湾区车展新能源车盘点，腾势N7、小鹏G6等 焦点速看

全球观天下！2023年“我们的节日·端午”四川省示范活动在达州万源市举行

学习贯彻全会精神｜雅安：坚定不移做强工业、旅游业“双引擎”

中国代表阐述在人权问题上的原则立场_全球聚看点

多地持续推进基础设施工程建设_环球即时看

两部门：优化研发费用加计扣除申报方式 缓解企业资金压力|资讯推荐

要账短语_要账短信大全

消息！终于不用吃细粮了！大众推出途观L全新版本 售价19.98万起

世界观速讯丨浦发银行威海文化西路小微支行“开展金融知识进社区”宣传活动

代号鸢三千宇宙噩梦渔女怎么玩 三千宇宙噩梦渔女关卡玩法攻略_播资讯

【收评】6月21日豆粕主力合约M2309上涨1.65%-焦点信息

30年前的邪典片，钟淑慧颠覆出演，尺度大胆生猛，录像厅时代的阴影

神经介入领域再添一员？经营净现金流吃紧，艾柯医疗科创板待考

“千万工程”调研行丨扮靓海上花园 焕发发展活力——浙江温州洞头乡村振兴一线观察

斯里兰卡外长萨布里将访华

泰国物价高吗?一个月能花多少钱-泰国物价 世界热议

【环球报资讯】海扶刀治疗子宫肌瘤的副作用是什么_海扶刀治疗子宫肌瘤的副作用

环球时讯：疫情过后，Moderna决定转型成为一家罕见病公司

世界观察：2023端午档票房破8000万

环球新动态：武汉左岸大道即将跨越通顺河

朱琳速胜 挺进伯明翰网球赛八强

【环球新要闻】2023北京昌平区端午节新冠疫苗接种安排（时间+地点）

省人大常委会立法调研组莅同

签名章的使用规定（签名章）

天天实时：法国巴黎市区建筑爆炸起火事故已致37人受伤

热议：港股异动 | 中国建筑国际(03311)午后涨超5% 中金预计公司下半年起实现盈利较快增长

新一批094让美军明白，解放军总有一天会把压力，送到美国家门口

环球今日讯！严查尾气护蓝天

中国天眼FAST发现轨道周期最短脉冲星系统 为经典双星演化理论提供关键证据

沈铁：16年来最大幅度调图！客货运列车全面提质-世界动态

马云复出：电商三强鼎立，618购物节“一出好戏”即将！

震撼！实拍小浪底启动调水调沙，如白龙出洞 环球速看

【当前热闻】银行财眼｜招商银行两分行领3张罚单合计被罚1230万

日本福岛市民游行反对核污水排海：政府连民众基本疑问都不回答当前短讯

今日快看!红酒烧烤焉耆醉好焉耆红酒烧烤节开幕

纸枪的折法纸枪的折法可发子弹,威力大视焦点讯

安徽省市场监督管理局开展限制粽子过度包装治理工作调研督导新动态

兰州百合：兰州百合　甜美好合

全球观点：天元区新马小学：端午粽飘香师生展风采

浙江省防指启动防汛Ⅳ级应急响应当前观察

粤港澳大湾区车展新能源车盘点，腾势N7、小鹏G6等焦点速看

两部门：优化研发费用加计扣除申报方式缓解企业资金压力|资讯推荐

消息！终于不用吃细粮了！大众推出途观L全新版本售价19.98万起

代号鸢三千宇宙噩梦渔女怎么玩三千宇宙噩梦渔女关卡玩法攻略_播资讯

“千万工程”调研行丨扮靓海上花园焕发发展活力——浙江温州洞头乡村振兴一线观察

泰国物价高吗?一个月能花多少钱-泰国物价世界热议

朱琳速胜挺进伯明翰网球赛八强

中国天眼FAST发现轨道周期最短脉冲星系统为经典双星演化理论提供关键证据

震撼！实拍小浪底启动调水调沙，如白龙出洞环球速看

上海电建贵溪30兆瓦屋顶光伏首批并网世界聚看点

端午假期南方强降雨持续北方高温上演“持久战”|世界报资讯

端午假期厦门连续三天维持高湿高热午后热雷雨时至

环球今日报丨“22珠华Y1”10亿元公司债将于6月27日付息利率3.895

工信部：今年前五个月电信业务总量保持较快增长播资讯

天天滚动:@高考生请收好高考准考证！考后还要用到

撑“大”了的胃还能这样“缩”回去环球热消息

珍爱生命，谨防溺水世界消息

“老头乐”加速退场微型新能源车或成新热点_环球消息

乡村之美丨为什么绿水青山就是金山银山？“千万工程”给你答案世界关注

国乒开展“当粉丝遇见偶像”专题培训呼吁球迷理性

（体育）“两江两村”体育赛事塑造乡村经济新范本微头条

端午出行西安交警帮您找车位

【环球新要闻】债市回调私募看好债券长期配置价值

唐县：打好招商引资“组合拳”聚集发展新动能环球快看点

滚动：龙头新闻“成果转化”频道上线 “汇智龙江邮储注力”科技成果转化专场路演同步启动

热点！端午假期内蒙大部晴晒当道多地高温持续注意防暑防晒

当前讯息：美国纽约地铁周末发生5起伤人事件官员称“令人不安”

全球观热点：世界难民日丨美国祸乱世界制造难民危机

民生银行济南槐荫支行开展“普及金融知识守住钱袋子”宣传活动_当前观点

为26家市级保险公司送去法律宣讲服务随州中院助推保险行业规范发展

腾讯视频发布影视年度片单，《漫长的季节》后哪部能火？全球快播报