环球视讯！专访梅涛：多名科大校友支持创业，年底前做出超越Stable Diffusion的底层视觉模型

2023-06-22 11:20:31 机器之心

(资料图片)

机器之心报道

作者：姜菁玲

人工智能热潮正快速点燃AI科学家的创业热情。继原京东高级副总裁周伯文离职创业后，京东另一AI大牛梅涛同样在近日宣布创业。

今年春节前，梅涛告别京东集团副总裁一职，决心投身大模型创业。一个月后，成立，公司方向确定为生成式视觉多模态基础模型与应用。

梅涛毕业于中国科学技术大学，是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow。多年来，梅涛主要在计算机视觉和多媒体领域建树，是多媒体领域获得国际最佳论文奖最多的华人学者。目前，梅涛博士还是中国科学技术大学和香港中文大学（深圳）的兼职教授和博士生导师。

由多位中科大校友组成的投资方评价梅涛，“是一个足够有野心，且有CEO才能的人”。

正式创业前，梅涛与周伯文、何晓冬三人是京东AI部门的牵头人物，负责了京东拍照购、多模态内容审核与生成、多模态数字人、智能机械臂等技术的研发。更早之前，梅涛在微软亚洲研究院工作了12年，支持了微软图像、视频搜索与摘要、Office图文混排等AIGC项目。

从能力板块上看，与许多AI科学家只拥有技术的极致长板不同，在微软与京东这两家世界五百强的职业经历一定程度上为他补充了产品与市场视角。

至今，已经成立三个月。机器之心在位于北京中关村苏州街上的办公室看到的Demo显示，的模型不仅能够支持文生图，还能支持文生视频、图生视频以及文生3D内容。

其中，文生图产品支持输入Prompt生成图片，还能够对任意图片中的想要修改的部分进一步编辑。比如要求修改所生成图片的背景、主体等。

输入“小熊拉琴”，文生视频产品能够生成相应的短视频或者动图。

输入“冰激凌”，文生3D产品能够实时生成具有高度真实感冰激凌的3D原型。

红杉美国所发布的《Generative AI: A Creative New World》一文中提到，世界范围内，文生图片、视频、3D领域的技术成熟度远远低于文生文。在大语言模型训练中面临的数据紧缺、商业边界不清晰等问题在生成式视觉模型上更为紧张。

随着全球大模型生态的二八效应逐步加剧，追随者的成本快速增长。梅涛团队的初步目标是年底前在基础模型上超越Stable Diffusion最新版本，而在产品上则要赶超MidJourney。

以下为机器之心与梅涛的对话：

年底前超越Stable Diffusion

机器之心：的整体目标是什么？

梅涛：我们希望构建一个全球领先的视觉多模态基础模型，可以用一个基础模型实现不同模态之间的生成转换，支持文字到图片、文字到视频、图片到视频、文字到3D等不同应用。我们的整体构想是模型层和应用层一起发力。

机器之心：目前许多AI科学家选择在大语言模型方向创业，你在多模态视觉底层模型投入的理由是什么？

梅涛：从大的角度看，我认为人与人的交流天然就是多模态的形式，而不仅仅只是一个文字和语言的模块。

我们现在讲语言模型，其实忽略了一点，语言模型本身就应该是多模态的，而并非仅是像目前ChatGPT所实现的——仅仅是文字的交流。视觉信息其实占据了我们人类每天所产生和接受的信息量的80%以上，因此视觉是非常重要的一种模态。

其次，我是技术出身，因此创业一定是根据自身的特长。多年以来，我们在视觉领域做得非常深入，因此有足够的竞争力和全球视野。

虽然我们拿到算力资源开始训练不到8周，但是我们短期的目标是在今年年底前，在基础模型领域超越Stable Diffusion，在文生图产品上赶超MidJourney，我们相信自己可以做得更好。

机器之心：“更好”会体现在哪些方面？

梅涛：现在大语言模型基本已经固化在GPT的架构上，只是大家用不一样的训练数据和训练技巧。并且GPT架构的天花板也很高，许多模型的参数量已经接近万亿级别。

但是目前的视觉基础模型却还有很大的进步空间。以被应用较多的Diffussion模型来看，它的天花板比较低，参数量只有十几亿到二十几亿。

所以我们就在想能不能做出一个比Diffusion框架更好更智能的底层模型，使得现在的视觉多模态基础模型可以从类似GPT-2的时代，向甚至时代进步。GPT-2的时候，参数量是几十亿，GPT-3进入了百亿。

那今天的视觉（类）模型还处于时代，有没有哪家公司能做到百亿参数，使得模型在提升自己能力的同时甚至可以出现智能涌现。

机器之心：要做到这个目标，目前有哪些限制性问题需要解决？

梅涛：首先是数据问题。市场上高质量的图文配对以及用于视频理解训练的数据非常稀缺。

我们在冷启动的情况下，目前大概有60亿参数的训练数据。我们希望将来产品上线后，数据能形成一个飞轮反哺到模型，这样我们就可以实现算法和数据的双轮驱动。

其次是模型容量问题。当下就算我们给Diffussion模型投喂更多的数据，因为模型容量小、天花板低，它可能也记不住这么多的视觉信息。也就是说，即使我们拥有百亿级的数据，放到现有的模型里去训练，可能也只能得出10-20亿左右的参数。

所以我们会去增加一些强有力的补丁，比如说记忆增强。只有一个系统模型的容量大了，记忆力增强了，相当于我们人脑的神经元多了，这个时候你就能记住更多的信息和知识。

机器之心：算力问题您怎么考虑？

梅涛：我不觉得算力是一个问题。

首先，对于我们来说，并不需要像大语言模型那样需要上千甚至上万张卡。按照要将参数做到百亿这个目标去算，我们预计只需要几百张A100，这对我们来说不构成困难。

其次，根据摩尔定律，在不远的将来，算力成本将会成倍降低，同时运算能力会指数增长，因此算力将不再是稀缺资源。

机器之心：你们的技术优势是什么？

梅涛：我们有三大技术优势。

首先是我们在视觉信号的编码方面有独到的方法。视觉信号与文字信号不一样，文字的tokenization相对简单，因为每个单词就是一个token，并且它的语义也是相对固定的；但是从一张照片或一段视频中去做tokenization，则是一个很难的问题。如果用像素作为token，则意味着爆炸式的计算量，同时像素之间的相关性也很差。

而我们采用的方法是构建一个能够处理更高维度像素之间的视觉相关性的Transformer编码器（Contextual Vision Transformer），这样的好处是不仅能够显著增强视觉自注意力的学习能力，并且可以扩大视觉编码器的感受野，使得我们学习到的视觉token具备更强的表达能力。

其次是模型方面的创新，我们会通过训练一个单独的记忆模块，让现有模型的记忆力得到增强，能够接受和学习更多的视觉信息。

最后，我们希望能将现在的Diffusion框架在模型的深度和宽度两个维度做得更深，通过一些工程上的精细化调整，使得我们的模型规模能上一个量级，将来可以实现更精细化的和可控的视觉内容生成。

当然，在模型本身的理论创新方面，我自己的博士生们也在努力攻关，希望在原创模型上能有所突破。

用文生图来证明底层模型

机器之心：现在基于底层模型，你们有文生图、文生视频、文生3D内容三个具体应用，三个应用的研发节奏是怎样的？

梅涛：整体上，我们希望做一个通用的生产力工具，之后变成一个生产力平台，最终形成一个社区，大家在社区中去共享共创。工具化验证后，希望可以做成一个相对通用的产品线，不仅服务游戏和营销等相关领域，更多其他行业的客户可以通过调用API接口，或者定制模型来服务。

目前，我们是一边做模型，一边做文生图产品。文生图产品将会直接面向市场，我们正在与一些大行业客户旗下的设计师共同合作打磨产品，预计在7月底正式上线，年底前将实现规模化的实施。另外，文生视频我们会同步做，不过可能会在年底前推出。文生3D内容相对优先级较后，我们保持探索。

机器之心：为什么文生图产品的优先级是最高的？

梅涛：原因有三点。

第一，文生图是做好文生视频和3D的基础，如果没有好的文字到图像的模型，那我们也很难做好文字到视频和3D，因此文生图是基础。

第二，我们希望用文生图的产品来验证自己的底层模型能力和商业化路径，也可以在效果上很快就能做得比现有模型好。

第三，先做文生图，也是因为文生视频和文生3D在技术和市场上仍然处于早期，需要一定的时间去探索。

机器之心：你如何理解这三者的市场空间？

梅涛：文生图的市场空间其实很大。参考MidJourney只有11个人的团队，已经做到超过1个亿美金的收入了。

在文生图的商业化上，我们目前希望切入产品设计和营销这两个价值链中最重要也是最普遍的环节。在产品设计上，我们希望首先面向专业设计师群体，通过可控、可交互的图片生成服务，帮助他们更好地实现创意，提升生产力，让设计师形成较好的使用和付费习惯，之后再不断外延到UGC用户。

全球有9000万设计师，中国有2000万，设计师所面临的痛点主要在于没有足够多的创意，以及验证创意的成本太高。我们希望这个工具可以帮助设计师提升个人的竞争力，可以帮助他们快速产生更多更好的创意，并加速生产流程。

而文生视频的市场空间会比文生图赛道更大，它可能会颠覆目前短视频的玩法。参考目前用户对短视频内容的大量消费情况，当PGC验证过后，文生视频工具在UGC领域的需求会是颠覆性的爆发。同时，文生视频目前还没有一家可以做到像素级丝滑（没有任何抖动）的生成，可提升空间很大，当然技术壁垒也是非常的高。

文生3D在游戏和AR/VR领域的想象空间则非常大。我们在做游戏领域的客户访谈时发现，客户最大的需求在3D内容创建。我们团队本身在3D方向拥有很多学术积累，虽然目前整体技术还很不成熟，但是值得探索。

机器之心：那么文生图将会是你们第一个面世的产品。从去年到现在，许多大厂和小厂都在文生图赛道上做了尝试。此刻切入这个市场，你们的优势是什么？

梅涛：目前文生图赛道确实很卷，市场竞争非常激烈。我们看到虽然很多公司做得还不错，但仍然有人脸、手指、景深、可控性等很多技术问题没有解决。

从技术上讲，市场上的众多文生图产品，相当于一桌满汉全席，各家有不同的搭配方法。我们清晰地知道这些是怎么搭配的，因此我们知道怎么去更好地去把这一桌菜做搭配。

从结果上看，我们模型迭代的速度很快，不到6个礼拜就从0到1研发并迭代了一个相对稳定的模型，其他团队可能需要几倍的时间。别人可能需要训练十次才能拿到一个比较满意的结果，而我们只需要两三次。

市场方面，我们是面向全球市场。而且文生图只是我们基于底层视觉模型来打样的一个产品，对于其他的文生图公司，我们本质上也并非竞争关系，未来他们也能够选择调用我们的基础模型来做微调（finetuning）训练或直接使用我们的API接口服务。

ChatGPT的出现加速了我的创业进程

机器之心：你此前的职业路径都在大厂。创业这件事，在你的预期之中吗？

梅涛：在。我之前的职业生涯实际上是在有意识的为创业做准备。在微软期间，我主要在技术方向上磨练，之后去到京东，所做的工作离产品和市场更近了，帮我补充了技术之外的视角，是一段非常好的经历。

但没有预料到的是ChatGPT的爆火，为生成式AI带来了爆炸式的热度，这加速了我的创业计划。但即使没有这件事，我仍然会创业，早晚的事。创业这件事，在我看来，一辈子注定要做一次；如果不做，我会后悔。

另外，我创业的一个重大原因是大厂的节奏相对比较慢，而我做事特别快，我认为创业公司在节奏上会快很多。因为在这个赛道上我们已经比国外落后了9个月甚至1年，所以我认为应该用更快的加速度去追赶、甚至超越它，而不是说按部就班地去做。

我现在经常拿着背包，时刻准备着出差。有时我不知道明天会在哪个城市，感觉创业的生活有点像我们现在所做的Decoding，每天都在解锁未知的事情，很辛苦但也很充实！

机器之心：你认为这次的人工智能创业潮与以往的有什么区别？

梅涛：这次人工智能创业的门槛非常之高。在模型层，需要你有高密度的算法科学家，其次还需要有足够的算力，足够的数据。以往的判别式AI公司（如人脸识别），虽然有头部公司，但是小公司跟随起来不是特别费劲，但是现在完全不同。

机器之心：公开资料显示，你已经完成了来自阿尔法公社、中喝大种子一号基金参与的种子轮融资，近期还将完成第二轮融资。目前公司在人才和资金方面的进展如何？

梅涛：公司已经运营了接近三个月的时间，目前我们的办公场所，还有早期的人才和算力已经基本到位。

资金方面，我们正在采用小步快跑的模式快速迭代，种子轮只是起步资金，今年年底前预计会分两轮完成数千万美金额度的天使轮融资。下一轮资金将用来扩张团队、购买算力资源以及商业化探索。目前团队共有十一人，预期在年底前会扩张到二十至三十人左右。我希望构建一个小规模的精干团队。

机器之心：听下来年底对你们来说是一个比较重要的节点。那接下来的半年，你们会着重解决哪些问题？

梅涛：第一个是模型方面，我能否将它做到百亿级，模型效果在参加评测时能否对标甚至略超过目前的模型；其次，在文生图产品上，我们的效果能不能超过目前世界上最好的公司；第三，我们内心完整的商业模式能否得到初步验证，比如我们能否服务好行业中的小B客户以及我们的用户到底喜不喜欢我们的种子产品，这对我来说是很重要的指标。我未来的半年主要就是把这三件事做好。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@

环球即时看！AI会消灭/创造更多人类工作？虚拟世界能否让人更幸福？张勇对话多位诺奖得主

香港自资院校内地生大增，树仁大学较去年多1.6倍

【预防未成年人网络沉迷】一图教你如何防范未成年人沉迷网络！-天天新资讯

世界新动态：潮州农商银行荣获广东省中小企业融资平台2022年度“助企纾困成效优秀奖”

聚焦“恢复和扩大消费” 专家支招“增强消费能力和消费信心”_天天最资讯

各地铁路公安加强宣传检查筑牢安全屏障

世界最资讯丨夏至到 节令美食都有啥？

天天时讯：6月21日专用设备行业十大熊股一览

热讯：官方售价36.90万元起 皇冠SportCross和全新一代皇冠威尔法联袂上市

好莱坞编剧罢工 加拿大“补位”

星火成炬 | 诗词里的夏日中国

埃夫特：股东及其一致行动人拟减持股份合计不超6%_每日速看

四川什邡市洛水镇首届龙船会精彩上演

崇州市中小学生读书教育主题活动颁奖典礼在蜀南小学举行 世界报道

澳柯玛： 公司积极推进各个产业数字化、场景化、智能化发展

“1＋N”模式开启“引燕归巢”新路径

广西本地蛇_广西南蛇是什么蛇 天天报道

刚刚传来消息！泰州主城这里马上拆迁！

荣安地产拟为浙江子公司1亿元借款提供担保

环球视讯！高三考生，上海高考成绩6月23日公布

竭尽全力保履约——中国二冶四川分公司召开履约推进会

FAST发现迄今最短轨道周期脉冲双星系统 天天新动态

端午出行 西安交警帮您找车位

环球热头条丨顾家家居作别“千亿梦”，押注定制产品，如何3年冲刺产能20亿？

【天天播资讯】美国各界：中美合作至关重要 惠及全球

“书店”风波后，文在寅首次公开露面，烈日下挖土豆蹲鸡舍喂鸡_全球简讯

今日夏至：昼晷已云极，宵漏自此长 头条焦点

“五月五·悟自主” 弘毅少年风采展示活动六年级组|当前热点

换手率看这篇就够了——小白必看

每日速读!榕江内河水工项目综合应急救援演练举行

最新养老金调整补发2023年在即 1950年到1960年的人可以领取多少？-信息

《中国潜在独角兽企业研究报告2023》发布 路凯智行连续两年入选

铁路大调图 首开三趟车 通辽融入东三省省会“四小时经济圈”

热点在线丨南威软件：6月21日融资买入3184.22万元，融资融券余额4.87亿元

知乎“匿名用户” 真的该管管了！-环球动态

8638台/套制氢设备！350亿！甘肃酒泉4GW光伏离网制氢项目EPC招标 今日看点

又是一年粽飘香，各社区花样开展纪念活动！

【天天新要闻】首届国际智慧养老产业博览会将在深圳举办

吃火锅后，男子突然吐血！医生紧急提醒：进入高发期！ 当前时讯

苏州灵湖村村书记沈卫东：13年带出“千万元”村，带领900户村民致富

“粽子经济”持续火热！有A股公司订单大增|全球新资讯

天天快看点丨日本外务大臣林芳正：和中国坦诚接触很重要，应当通过对话建立建设性和稳定的关系

安全宣传进社区 粽香四溢迎端午-每日动态

古筝名家袁莎专辑《出水莲》面世 自然环境录音展现天人合一之美

厦门市场粽子口味推陈出新 价格更加实惠

四川白斑病医院有几家

环球观天下！11将倒戈，意甲乱了，尤文沦为罗马，米兰或赚7000万，国米笑了

我们的节日•端午｜心系老人 情暖端午

负债超百亿 昔日“河南酒王”宋河酒业破产重整申请获法院受理

山城步道+1！沙滨路滴水岩至磁器口段计划月底完工投用|每日热闻

全球动态:网易云音乐和小冰联手推AI辅助创作？AI将如何变革音乐市场？

全球视点！太突然！知名品牌拉夏贝尔正式破产清算！

多项指标明显回升！广东经济延续恢复向好态势

教育部部署做好2023年普通高校招生录取工作

今头条！深交所：关于对金科股份(000656.SZ)发行股份购买资产暨关联交易的问询函

世界短讯！万泰生物股东李莎燕本次减持计划时间届满，仍持有0.7651%的公司股份

天天微速讯：成都理工大学2023年计划招生7865人，成都校区比去年增加300人

端午安康丨伦茨如何让时令食品“精”装上阵

涨知识！蔬菜专家当面授技

时隔一年券商“白名单”更新 5家公司新进4家被调出_全球速递

林茂任中央美术学院院长，范迪安不再担任 独家焦点

组织孩子为烧伤同学捐款引争议 幼儿园：不在乎网友评论

世界信息:抢抓“颜值经济”发展机遇 咸宁市加快打造美丽健康产业示范基地

中国太保：6月21日融资净买入1786.61万元，连续3日累计净买入9269.86万元|天天观察

顺德北滘镇2023年秋季学期公办中小学校转学插班工作

全球今头条！甘州：“文明餐桌”“光盘行动”引领新“食”尚

环球资讯：端午安康！开盲盒啦，快来get你的藏头诗祝福吧

2023开封医保在哪里办理呢_全球动态

兰州新区商投集团举办“溯传统文化，颂端午情怀”趣味运动会

温彬：预计发行特别国债的可能性并不大

人车禁入！惠济黄河滩区封闭管理

环球速递！第一次下场造电池，TCL中环选在了广州

宋岩 速讯

全球快看：各银行大额存款利率 银行大额存款怎么存

世界视讯！坤泰股份筹码持续集中 最新股东户数下降2.32%

热门看点：近期让观音菩萨盯上，会有好孕落入在身，添丁旺财的4大星座女！

聚焦省运会｜劈波斩浪！皮划艇健儿浑河竞速

快播：浙江各机场端午假期三天预计运送旅客68万人次

富滇银行滇池支行行长被调查

全球快讯:广汉市市场监管局开展特种设备安全管理工作调研

世界最资讯丨夏至到节令美食都有啥？

热讯：官方售价36.90万元起皇冠SportCross和全新一代皇冠威尔法联袂上市

好莱坞编剧罢工加拿大“补位”

崇州市中小学生读书教育主题活动颁奖典礼在蜀南小学举行世界报道

澳柯玛：公司积极推进各个产业数字化、场景化、智能化发展

广西本地蛇_广西南蛇是什么蛇天天报道

FAST发现迄今最短轨道周期脉冲双星系统天天新动态

端午出行西安交警帮您找车位

【天天播资讯】美国各界：中美合作至关重要惠及全球

今日夏至：昼晷已云极，宵漏自此长头条焦点

《中国潜在独角兽企业研究报告2023》发布路凯智行连续两年入选

铁路大调图首开三趟车通辽融入东三省省会“四小时经济圈”

8638台/套制氢设备！350亿！甘肃酒泉4GW光伏离网制氢项目EPC招标今日看点

吃火锅后，男子突然吐血！医生紧急提醒：进入高发期！当前时讯

安全宣传进社区粽香四溢迎端午-每日动态

古筝名家袁莎专辑《出水莲》面世自然环境录音展现天人合一之美

厦门市场粽子口味推陈出新价格更加实惠

我们的节日•端午｜心系老人情暖端午

负债超百亿昔日“河南酒王”宋河酒业破产重整申请获法院受理

林茂任中央美术学院院长，范迪安不再担任独家焦点

组织孩子为烧伤同学捐款引争议幼儿园：不在乎网友评论

世界信息:抢抓“颜值经济”发展机遇咸宁市加快打造美丽健康产业示范基地

宋岩速讯

全球快看：各银行大额存款利率银行大额存款怎么存

世界视讯！坤泰股份筹码持续集中最新股东户数下降2.32%

美国最大新闻出版商起诉谷歌，指控其垄断在线广告市场扼杀新闻业环球新要闻

天天快报!美国各界：中美合作至关重要惠及全球

屏幕亮度调节最暗软件把屏幕亮度调暗的软件

焦点信息:《英雄联盟》发布新 CG 动画：介绍新英雄“百裂冥犬纳亚菲利”

世界新消息丨端午天气预报：多云唱主角返程雨相伴

和评理 | 中方劝和促谈西方延长流血冲突|重点聚焦

焦点消息！【千年荣昌•历史文化周】濑溪河上划桨忙奋力备战龙舟赛

全省检察机关以科技助力公益诉讼检察监督无人机空中勘验取证为办案赋能

芯导科技：6月21日融资买入145.01万元，融资融券余额8588.84万元天天热资讯

最新：Sonic Central发布会23日晚间举行展示索尼克新作情报

前5月新能源汽车出口45.7万辆（新数据新看点）

首部现代设施农业建设规划发布——加快农业生产集约化智能化速递

世界微速讯：请您错峰游玩景区河湖人会很多

今日讯！‌·银川：着力优化创新布局为高质量发展注入源源动力

被马斯克们盛赞的“中国供应链”，背后有一家企业值得关注世界时快讯

世界最资讯丨夏至到节令美食都有啥？