2024北京智源大会揭幕:重磅发布AI大模型前沿成果

来源:综合整理 | 发布时间:2024-06-19

摘要:6月14日,2024北京智源大会在海淀区中关村国家自主创新示范区展示中心启幕。全球首个低碳单体稠密万亿语言模型Tele-FLM-1T,全球领先真机实验成功率突破95%的泛化抓取技术ASGrasp,能反思、可随机应变的铰接物体操作大模型系统SAGE……大会现场集中发布了智源研究院在语言、多模态、具身、生物计算大模型等方面的一系列前沿探索和研究成果。

6月14日,2024北京智源大会在海淀区中关村国家自主创新示范区展示中心启幕。全球首个低碳单体稠密万亿语言模型Tele-FLM-1T,全球领先真机实验成功率突破95%的泛化抓取技术ASGrasp,能反思、可随机应变的铰接物体操作大模型系统SAGE……大会现场集中发布了智源研究院在语言、多模态、具身、生物计算大模型等方面的一系列前沿探索和研究成果。

大咖云集共话行业发展

北京智源大会是智源研究院主办的“AI内行顶级盛会”,以“全球视野、思想碰撞、前沿引领”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。大会自2019年10月首度亮相至今已成功举办5届,成为国际人工智能交流的亮眼名片。

大会邀请到了图灵奖得主姚期智,OpenAI、Meta、DeepMind、斯坦福、UCBerkeley等国际明星机构与技术团队代表,以及百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO,汇聚了200余位人工智能顶尖学者和产业专家,围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。

开幕式上,智源研究院院长王仲远做2024智源进展报告,介绍了智源研究院在语言、多模态、具身、生物计算大模型的前沿探索和研究进展以及大模型全栈开源技术基座的迭代升级与版图布局。

现场发布智源大模型全家桶

现场发布的智源大模型全家桶包括大语言模型系列、多模态大模型系列、具身智能大模型系列和生物计算大模型系列。王仲远表示,语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,但这并不是让人工智能感知、理解物理世界的终极技术路线。未来,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界。

在展览区,忙着为嘉宾“送吃送喝”的银河通用首代具身智能机器人Galbot受到了广泛关注。北京智源研究院和银河通用共同研发了Galbot的大脑大模型,通过大小脑配合,大脑层进行通用指令理解和场景感知,完成规划后调用小脑能力驱动身体完成取货、放置、收纳等任务。

具身智能应用在医疗等领域,将会给大众带来更多福音。实时心脏计算模型是虚拟心脏科学研究的开端,是孪生心脏走向临床应用的基础。智源研究院构建了全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿真时间比小于1,能根据患者的临床数据,构建出反映患者的个性化生理病理的孪生心脏,从而进行药物筛选、治疗方案优化、术前规划等临床应用。

此外,智源研究院联合领视智远研发的全球首个智能心脏超声机器人,实现了全球首例真人身上的自主心脏超声扫查,能够解决心脏B超医生紧缺、诊断准确率不高等难题。基于超声影像和机械臂的受力信息,智能心脏超声机器人能够在高速动态环境下快速计算、提取心脏特征,实现相当于自动驾驶L2、L3级的智能化水平。临床验证结果显示,智能心脏超声机器人的准确性能与高年资医生保持一致,稳定性上,智能心脏超声机器人更胜一筹。

一年内国产大模型迅速迭代

采访中,王仲远谈及近一年国内大模型技术的发展变动。他称,2023年时,行业认为国内大模型还在追逐GPT 3.5。今年,国产大模型的平均水平已经超过GPT3.5,无限逼近GPT4。甚至在中文语境下的某些能力上,国内大模型超过GPT4,但GPT4本身也在不断迭代。例如最新发布的GPT4o整体性能、效果,甚至效率都有了显著提升,因此整个国产大模型还处在一个追赶的阶段。

大会现场,王仲远披露了智源研究院在语言、多模态、具身、生物计算大模型等方面的进展。包括智源研究院和中国电信人工智能研究院(TeleAI)联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE(BAAI General Embedding)系列。以及为实现多模态、统一、端到端的下一代大模型,智源研究院推出了Emu3原生多模态世界模型。
王仲远表示,国产大模型达到可用、但并不非常好用的水平,GPT4之后,大模型可以进入到场景内进行快速迭代,但与之伴随的突破难度也非常大,包括算力资源、核心算法、系统工程等方面,如万卡以上的GPU如何实现芯片互联仍面临一定挑战。

近一年大模型迅速发展的因素中,Scaling Law(规模法则)成为与会嘉宾多次提到的关键。李开复表示,AI 2.0是有史以来最伟大的科技革命和平台革命,大模型Scaling Law的重要性在这个时代得以凸显——人类能够用更多计算和数据不断增加大模型的智慧,这条被多方验证的路径还在推进中,远未触达天花板。
月之暗面CEO杨植麟认可大模型是第一性原理,需要不断提升模型的规模,但其中最大的挑战是有一些数据并不一定有那么多。智谱AI CEO张鹏从实用主义角度表示,Scaling Law还在有效,还在前进。至于它能否帮助大模型达到顶峰,目前行业找不到一个确切的答案。百川智能CEO王小川从AGI的终点来看,要实现AGI除了规模,还需要有范式的改变,如大模型靠数据驱动学习做压缩,但目前的Scaling Law是做不到AGI的。面壁智能CEO李大海表示,Scaling Law是一个经验公式,是行业对大模型这样一个复杂系统观察以后的经验总结,随着训练过程中实验越来越多、认知越来越清晰,会有更细颗粒度的认知,如模型训练中的训练方法对Scaling Law、对智能的影响比较显著。

逼近GPT4之后的布局

采访中王仲远表示,国产大模型已经到了能够去支撑应用的阶段,所以他个人预测,未来两三年可以看到大量大模型应用的产生。至于具体分类,王仲远认为B端应用非常明确,几乎覆盖了所有行业。至于C端,行业普遍期待看到C端的爆款级应用。但类比移动互联网时代,当一个新技术或技术革命出现时,都需要一定的周期,需要天时地利人和,需要有技术能力。

具体到大模型落地C端产品,王仲远认为还需要模型足够低价好用,同时解决用户的真实痛点,因此对C端爆款应用需要保持一定耐心,“即使在大洋彼岸,也还没有出现C端的爆款应用。”王仲远称。

如果AGI时代到来,可能发生的技术演进路线是怎样的呢?王仲远认为,过去几年,绝大部分的科研关注度,包括产业的关注度,都在大语言模型的突破,目前大语言模型依然是单语言的模型,但除了文本数据外,还存在大量图像、视频、音频等多模态数据。当多模态大模型能够理解和感知、决策这个世界时,它就有可能进入到物理世界。如果进入到宏观世界与硬件结合,这就是具身大模型的发展方向;如果进入到微观世界去理解和生成生命分子,这就是AI For Science。

OpenAISora团队负责人Aditya Ramesh在与纽约大学助理教授谢赛宁的对话环节中表示,对于构建更加智能的具有推理能力的系统来说,语言模态确实十分重要,但从某种意义上来说,将语言信息以某种通用接口融入视觉信号中或许可以实现模拟任何事物的能力。随着模型规模的增大,其对于语言的依赖也会降低。

近期,海内外多模态领域更新频繁,包括AI初创公司Luma AI发布视频生成模型Dream Machine,短视频公司快手推出Kling大模型。对于行业现状,Aditya Ramesh表示,团队目前最关心的是视频生成模型的安全性及其对社会的影响,希望人们不要用Sora来发布错误的信息,也希望模型的行为符合人类的期望。很开心看到有其他实验室和公司从事视频生成模型的研发,有大量的人尝试使用不同的方法对于激发艺术和扩散模型领域的创新很重要。而“提高可控性”和“减少随机性”是Sora团队目前从合作方收到的最重要的功能需求。

AI安全是此次智源大会另一个重要议题,杨植麟同样认为AI安全非常重要,虽然不一定是当前最急迫的,但是一个需要提前去准备的事情。因为随着模型的进展,Scaling Law的发展是每N个月算力乘以10倍,智能会得到提升。杨植麟认为AI安全包括模型本身因用户而产生的恶意意图,以及在模型底层注入AI“宪法”框定模型的行为。

李大海认为,现阶段安全主要聚焦在基础安全与内容安全两个方向上,现在的大模型本质上是只读的,权重是固定的,推理不会影响权重。未来当用户将模型部署到机器人等终端上,模型能够去动态更新自己的权重后,安全问题将变成一个非常重要的问题。

对于近期的价格战问题,王小川表示,降价让更多个人与企业入场,同时令很多企业开始清醒,不再参与做大模型,而是“退”回来成为大模型的用户,减少资源浪费。