Llama 3.1大模型发布,性能超越GPT-4和Claude 3.5

来源:凤凰网 | 发布时间:2024-07-24

摘要:Meta发布Llama 3.1,包含8B、70B及405B版本,最大上下文达128k tokens,性能超越现有顶级AI模型,支持多语言,擅长处理复杂任务和即时生成内容。Llama目前开源领域中用户最多、性能最强的大型模型系列之一。

Llama 3.1终于来了。

美国当地时间7月23日,Meta正式发布Llama 3.1。其包含8B、70B 和405B三个规模,最大上下文提升到了128k。Llama目前开源领域中用户最多、性能最强的大型模型系列之一。

本次Llama 3.1的要点有:

1.共有8B、70B及405B三种版本,其中405B版本是目前最大的开源模型之一;

2.该模型拥有4050亿参数,在性能上超越了现有的顶级AI模型;

3.模型引入了更长的上下文窗口(最长可达128K tokens),能够处理更复杂的任务和对话;

4.支持多语言输入和输出,增强了模型的通用性和适用范围;

5.提高了推理能力,特别是在解决复杂数学问题和即时生成内容方面表现突出。

Meta在官方博客中写道:“时至今日,开源大语言模型性能落后于闭源模型仍是常态。但现在,我们正在迎来一个开源引领的新时代。我们公开发布Meta Llama 3.1 405B是世界上最大、功能最强大的开源基础模型。迄今为止,所有Llama版本的累计下载次数已超过3亿,而这只是一个开始。”

开源与闭源的争论一直是技术领域的热点话题。

开源软件更为透明性和灵活性,允许全球开发者共同审查、修改和改进代码,从而推动了技术的快速创新和进步。而闭源模型通常由单一公司或组织开发和维护,它们能提供专业的支持和服务,确保软件的安全性和稳定性。但这种模式也限制了用户的控制权和自定义能力。

此前,一直是闭源模型略胜一筹。直到Llama 3.1的发布,在持续激烈的开源与闭源之争写下浓墨重彩的一笔:开源模型终于可与闭源模型巅峰一战了。

根据Meta提供的基准测试数据,最受关注的405B版本,从性能上已经可与GPT-4和Claude 3相媲美。其中Human Evaluation主要用于评估模型在理解和生成代码、解决抽象逻辑问题方面的能力。在与其他大型模型的竞争中,Llama 3.1 405B显得略胜一筹。

图片

Llama 3.1与GPT-4、Claude 3.5旗鼓相当,来源:Meta

斯坦福大学计算机科学系和电子工程系副教授、人工智能实验室主任吴恩达(Andrew Ng)在社交媒体上称赞“Meta和Llama团队对开源的巨大贡献”。他表示:“Llama 3.1增加了上下文长度和改进了功能,是送给每个人的奇妙礼物。”并希望“像加州提议的SB1047这样愚蠢的法规不会阻止这样的创新”。

图片

吴恩达的社交媒体,来源:X

图灵奖得主、Meta首席人工智能科学家杨立昆(Yann LeCun)引用了《The Verge》对Llama 3.1的性能描述——Meta发布了迄今为止最大、最优秀的开源人工智能模型:Llama 3.1在某些基准测试上超越了OpenAI及其他竞争对手。

图片

杨立昆的社交媒体,来源:X

有趣的是,昨天405B版的Llama 3.1疑似在HugginFace、GitHub上被“偷跑”,爆料人发出的评测数据与今日正式发布的版本信息基本相符合。

Meta的创始人兼CEO马克·扎克伯格亲笔撰写了一篇题为《开源人工智能是未来之路(Open Source AI Is the Path Forward)》的长文章,详细阐述了开源对开发者、对Meta以及对全球来说为何具有重要意义。

他预测到今年年底,Meta AI将超过ChatGPT,成为使用最广泛的助手。

他还表示:誓将开源进行到底。

图片

《Open Source AI Is the Path Forward》的文章切片,来源Meta

1.Llama 3.1的炼成

在模型架构方面,作为Meta迄今为止最大的模型,Llama 3.1 在超过 15 万亿个token的数据上进行训练,预训练数据日期截止到2023年12月。

为了在合理的时间内在如此大规模上实现训练并取得期望的成果,Meta优化了整个训练堆栈,用了超过16000块H100,405B是第一个在此规模上训练的Llama模型。

图片

Llama 3.1文本生成过程中的Transformer模型架构,来源:Meta

为了最大限度确保训练的稳定性和便捷性,Meta选择了标准的仅解码器Transformer模型架构进行微调,而没有采用当前流行的混合专家模型(MoE)架构。

这一决策使得Llama 3.1在支持长达128K的上下文长度时,依然能够保证短文本的高质量输出,实现了对长短文本的灵活处理,而非仅专注于长文本。

同时,研究团队在实施了一种迭代的后训练方法,通过每一轮的监督式微调和直接偏好优化,生成高质量的合成数据并提升模型的各项功能。与先前版本相比,Llama 3.1增加了预训练和后训练数据的数量和质量,引入了更细致的预处理和管理流程,以及更严格的质量保证和过滤技术。

根据语言模型的扩展规律,Llama 3.1在性能上超越了之前使用相同训练程序的小型模型。

为了应对大规模的405B模型的运行需求,Meta把模型数据从16位(BF16)量化减少到8位(FP8),这大幅降低了计算资源的需求,令模型能够在单一服务器节点上运行。

在Llama 3.1 405B模型的指令和聊天微调方面,开发团队致力于提升模型对用户指令的响应性、实用性和质量,同时确保高度的安全性。

在后训练阶段,团队在预训练的基础上进行了几轮调整。每轮包括监督式微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。此外,团队使用合成数据生成来产生绝大多数 SFT 示例,这表示他们并不全然依赖真实世界的数据,而是通过算法生成的数据来训练模型。

同时,团队还使用多种数据处理方法来过滤这些数据,确保质量最高,并扩大微调数据的应用范围。

Meta也在探索一种新策略,即使用405B模型作为70B和8B模型的“教师模型”,从而从大型模型中提炼出适合各行各业需求的小型定制模型。这种做法与GPT-4o mini的策略不谋而合,即“先做大,再做小”

前OpenAI创始成员之一Andrej Karpathy曾对GPT-4o Mini做出评价:“模型必须先变大,然后才能变小。因为我们需要它们(自动)帮助重构训练数据,使其成为理想的、合成的格式。”他指出,这种方法能有效地将大模型的深度和广度知识迁移到更实用、成本更低的小型模型中。

作为开源模型路线的领头羊,Meta在Llama模型的配套设施上也给足了诚意。

Llama系统设计为一个综合的框架,能够整合多个组件,包括调用外部工具。Meta的目标是提供一个更广阔的系统,让开发者能够灵活地设计并创建符合自己需求的定制产品。

为了在模型层之外负责任地发展AI,研究团队发布了一个包含多个示例应用和新组件的完整参考系统,例如多语言安全模型Llama Guard 3和提示注入过滤器Prompt Guard。这些应用是开源的,可供社区进一步开发。

为了更好地定义组件接口并促进其在行业中的标准化,研究人员与行业、初创公司和广泛社区合作,并在GitHub上发布了“Llama Stack”提议。这是一套标准化接口,能够简化工具链组件(如微调、合成数据生成)和代理应用程序的构建。

根据Meta提供的基准测试数据显示,Llama 3.1 405B 在NIH/Multi-needle 基准测试的得分为 98.1,在性能评分上与GPT-4和Claude 3.5等不相上下。405B版本以出色的整合海量文本信息能力在ZeroSCROLLS/QuALITY基准测试的得分为95.2,对于关注RAG性能的AI应用开发者而言十分友好。

图片

Llama 3.1与GPT4等闭源模型相比较,来源:Meta

图片

Llama 3.1与Mistral 7B Instruct等开源模型相比较,来源:Meta

Llama 3.1 8B 版本显著优于 Gemma 2 9B 1T 和 Mistral 7B Instruct,且相较于前代Llama 3 8B的表现有了明显的提升。同时,Llama 3.1 70B 版本甚至超过了GPT-3.5 Turbo。

根据Llama团队的官方报道,他们在150多个多语言基准数据集上对这些模型进行了深入的性能评测和大量的人工测试。结果显示,Llama的顶级模型在各种任务上能够与市场上的顶尖基础模型如GPT-4、GPT-4o和Claude 3.5 Sonnet等相媲美。同时,相较于具有类似参数规模的封闭和开源模型,Llama的小型版本同样表现出了强劲的竞争力。

2.开源、闭源模型之争

开源模型到底能否超越闭源模型?

这个问题从去年开始就备受争议。两种模型的发展道路代表着不同技术哲学,它们在促进技术进步和满足商业需求方面各有千秋。

比如Llama 3.1是一个开源的大模型,它允许研究人员和开发者访问其源代码,人们可以自由地研究、修改甚至改进模型。这种开放性鼓励了广泛的合作和创新,让来自不同背景的开发者能够共同解决问题。

相对地,ChatGPT是由OpenAI开发的闭源模型,虽然它提供了API访问,但其核心算法和训练数据未完全公开。GPT-3的闭源特性使得其能够在商业化路径上更加稳健,同时控制性确保了产品的稳定性和安全性,在处理敏感信息时更受企业信赖。但这种封闭性也限制了外部研究者对模型的完全理解和创新能力。

去年5月,外媒曾报道谷歌流出一份文件,主题是“我们没有护城河,OpenAI也没有。当我们还在争吵时,开源已经悄悄地抢了我们的饭碗”。同年Meta发布开源大模型Llama 2后,杨立昆表示,Llama 2将改变大语言模型的市场格局。

人们对于Llama系列模型所引领的开源社区备受期待。此前,最先进的闭源模型GPT-4始终略胜一筹,虽然当时的Llama 3 与之相比差距已经很小了。

大模型领域最权威的榜单是大模型竞技场(LLM Arena),采用了国际象棋一直采用了ELO积分体系。它的基本规则是,让用户向两个匿名模型(例如 ChatGPT、Claude、Llama)提出任何问题,并投票给回答更好的一个。回答更好的模型将获得积分,最终的排名由累计积分的高低来确定。Arean ELO收集了50万人的投票数据。

图片

大模型排行榜一览,来源:LLM Arena

在LLM Arena排行榜上,OpenAI的GPT-4o目前占据榜首。排名前十的模型全部为闭源。虽然闭源模型在排名上仍遥遥领先,但开源与闭源模型之间的差距并非李彦宏在2024年百度AI开发者大会上所言越来越大,实际上正在逐渐缩小。

图片

WAIC期间,李彦宏表示:“开源其实是一种智商税”。来源:百度

直到今天Llama 3.1的发布,开源模型终于可与闭源模型巅峰一战了。

对于开源、闭源模型哪个更优,,「甲子光年」曾与多位AI行业从业者讨论过。业内普遍认为:往往取决于个人立场,并不是简单的黑白二分问题。

开源和闭源问题并非纯粹技术上的区别,更多关乎于商业模式的选择。目前无论是开源还是闭源大模型,都尚未找到一个完全成功的商业模式。

那是什么因素影响了开源和闭源模型之间的能力差异呢?

微博新技术研发负责人张俊林指出,模型能力的增长速度是一个关键因素。如果模型能力的增长速度很快,意味着短时间内需要大量计算资源,这种情况下闭源模型因为资源优势而更有优势。相反,如果模型能力增长较慢,则开源与闭源之间的差距会减小,追赶速度也会加快。

他认为,未来几年内,开源和闭源模型的能力差异将取决于“合成数据”技术的发展。如果未来两年内“合成数据”技术取得显著进展,两者的差距可能会增大;如果没有突破,则两者的能力将趋于相近。

总体而言,“合成数据”将成为未来大语言模型发展的关键技术。

开源还是闭源,本身并不决定模型性能的高低。闭源模型并非因为闭源而领先,开源模型也并非因为开源而落后。甚至恰恰相反,模型是因为领先才选择闭源,因为不够领先不得不选择开源。

如果一家公司做出了性能很强的模型,它就有可能不再开源了。

比如法国的明星创业公司Mistral,其开源的最强7B模型Mistral-7B和首个开源MoE模型8x7B(MMLU 70)是开源社区声量最大的模型之一。但是,Mistral后续训练的Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是闭源模型。

目前性能最好的闭源模型与性能最好的开源模型都是由大公司所主导,而大公司里又属Meta的开源决心最大。如果OpenAI不开源是从商业回报的角度来考虑,那么Meta选择开源让用户免费试用的目的又是什么呢?

在上一季度的财报会上,扎克伯格对这件事的回应是,Meta开源其AI技术是出于推动技术创新、提升模型质量、建立行业标准、吸引人才、增加透明度和支持长期战略的考虑。

而这次扎克伯格在《开源人工智能是未来之路(Open Source AI Is the Path Forward)》中详细地解释了“为什么开源AI对开发者有利”:

在与来自世界各地的开发者、CEO和政府官员的对话中,我经常听到他们强调需要培训、微调和优化他们自己的模型。

每个组织都有其独特需求,不同规模的模型可针对这些需求进行优化,使用特定数据进行训练或微调。简单的设备上任务和分类任务可能需要较小的模型,而更复杂的任务则需使用更大的模型。

现在,你可以使用最先进的Llama模型,并继续用你自己的数据来训练它们,之后将它们优化到理想的规模——而我们或其他任何人都不会接触到你的数据。

我们需要控制自己的命运,而不是受制于某个闭源供应商。

许多组织不想依赖于他们无法自行运行和控制的模型。他们担心闭源模型的提供者可能会更改模型、使用条款,甚至完全停止服务。他们也不希望被限制在一个对某个模型拥有独占权的单一云平台中。开源为众多公司提供了一套兼容的工具链,使得在不同系统之间切换变得容易。

我们需要保护我们的数据。

许多组织处理敏感数据,需要保护这些数据不被通过云API发送到闭源模型中。其他组织则简单地不信任闭源模型提供者的数据处理方式。开源通过让你在任何想要的地方运行模型来解决这些问题,并且因为开发过程的透明性而被广泛认为更安全。

我们需要一种高效且经济的运行方式。

开发人员可以在自己的基础设施上运行Llama 3.1 405B模型进行推理,其成本大约是使用GPT-4o等闭源模型的一半,适用于面向用户的和离线推理任务。

我们押注了一个有望成为长期标准的生态系统。

很多人看到开源模型比闭源模型发展得更快,他们希望自己构建的系统架构能带来最大的长期优势。