5 个最佳大型语言模型 (LLM)（2024 年 9 月）

AI评测师 • 2024年9月19日上午11:00 • 技术评测 • 119 views

人工智能领域正在以惊人的速度发展，大型语言模型 (LLM) 在自然语言处理和理解领域处于领先地位。随着我们不断探索这一领域，新一代 LLM 应运而生，它们都在不断突破 AI 的极限。

在这份最佳 LLM 概述中，我们将探讨这些尖端语言模型的主要特性、基准性能和潜在应用，并深入了解它们如何塑造人工智能技术的未来。

1. Anthropic 的《Claude 3》

Anthropic 的 Claude 3 模型于 2024 年 3 月发布，代表了人工智能能力的重大飞跃。该 LLM 系列在从自然语言处理到复杂问题解决等各种任务中都提供了增强的性能。

Claude 3 有三个不同的版本，每个版本都针对特定用例量身定制：

Claude 3 Opus：旗舰型号，提供最高水平的智能和功能。
Claude 3.5 Sonnet：一个平衡的选择，提供速度和高级功能的结合。
Claude 3 Haiku：最快、最紧凑的型号，针对快速响应和效率进行了优化。

Claude 3.5 十四行诗激发创造力

Claude 3 的主要功能：

增强的语境理解： Claude 3 表现出了更强的掌握细微语境的能力，减少了不必要的拒绝，更好地区分了潜在有害的请求和良性的请求。
多语言能力：模型显示，包括西班牙语、日语和法语在内的非英语语言的能力有显著提高，增强了其全球适用性。
视觉解释： Claude 3 可以分析和解释各种类型的视觉数据，包括图表、图解、照片和技术图纸。
高级代码生成和分析：这些模型擅长编码任务，使其成为软件开发和数据科学的宝贵工具。
大型上下文窗口： Claude 3 具有 200,000 个标记上下文窗口，对于选定的高需求应用程序，有可能输入超过 100 万个标记。

基准性能：

Claude 3 Opus 在各种行业标准基准测试中都表现出了令人印象深刻的成绩：

MMLU（大规模多任务语言理解）：86.7％
GSM8K（小学数学 8K）：94.9%
HumanEval（编码基准）：90.6%
GPQA（研究生水平的专业质量保证）：66.1%
数学（高级数学推理）：53.9%

这些分数通常超过其他领先模型，包括 GPT-4 和谷歌的 Gemini Ultra，这使得 Claude 3 成为人工智能领域的顶级竞争者。

Claude 3 基准（人择）

Claude 3 道德考量与安全

Anthropic 在 Claude 3 的开发过程中非常重视人工智能的安全性和道德问题：

减少偏差：模型在偏差相关的基准上表现出了更好的性能。
透明度：我们努力提高人工智能系统的整体透明度。
持续监控： Anthropic 保持持续的安全监控，其中 Claude 3 达到了 AI 安全 2 级评级。
负责任的发展：公司始终致力于提高人工智能开发的安全性和中立性。

Claude 3 代表了 LLM 技术的重大进步，在各种任务中提供更出色的性能、增强的多语言能力和复杂的视觉解释。其强大的基准测试结果和多功能应用使其成为 LLM 的有力选择。

拜访 Claude 3 →

2. Open AI 的 GPT-4o

OpenAI 的 GPT-4o（“o”代表“omni”）在各种任务和模式下提供了更高的性能，代表了人机交互的新前沿。GPT-4o 介绍

主要功能：

多模式处理： GPT-4o 可以接受多种格式的输入并生成输出，包括文本、音频、图像和视频，从而实现更自然、更多样的交互。
增强的语言理解：该模型在英语文本和代码任务上的表现与 GPT-4 Turbo 相当，同时在非英语语言上也表现出色。
实时交互：GPT-4o 可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，与人类对话响应时间相当。
改进的视觉处理：与以前的版本相比，该模型表现出增强的理解和分析视觉输入的能力。
大上下文窗口： GPT-4o 具有 128,000 个标记上下文窗口，允许处理更长的输入和更复杂的任务。

性能和效率：

速度： GPT-4o 的速度是 GPT-4 Turbo 的两倍。
成本效益：与 GPT-4 Turbo 相比，API 使用成本便宜 50%。
速率限制：与 GPT-4 Turbo 相比，GPT-4o 的速率限制高出五倍。

GPT-4o 基准（OpenAI）

GPT-4o 的多功能性使其适用于广泛的应用，包括：

自然语言处理和生成
多语言交流与翻译
图像和视频分析
基于语音的交互和助手
代码生成和分析
多模式内容创作

可用性：

ChatGPT：免费用户和付费用户均可使用，但 Plus 订阅者的使用限制更高。
API 访问：开发人员可通过 OpenAI 的 API 访问。
Azure 集成： Microsoft 通过 Azure OpenAI 服务提供 GPT-4o。

GPT-4o 安全和道德考虑

OpenAI 为 GPT-4o 实施了各种安全措施：

跨模式的内置安全功能
过滤训练数据并细化模型行为
语音输出的新安全系统
根据 OpenAI 的准备框架进行评估
遵守对负责任的人工智能发展的自愿承诺

GPT-4o 在各种模式下提供增强的功能，同时保持对安全性和负责任的部署的关注。其改进的性能、效率和多功能性使其成为从自然语言处理到复杂的多模式任务等广泛应用的强大工具。

访问 GPT-4o →

3. Meta Llama 3.1

Llama 3.1 是 Meta 最新推出的大型语言模型系列，在各种任务和模式下提供了更出色的性能，挑战了闭源替代方案的主导地位。

Llama 3.1 有三种尺寸，可满足不同的性能需求和计算资源：

Llama 3.1 405B：最强大的模型，拥有 4050 亿个参数
Llama 3.1 70B：性能强劲的均衡型号
Llama 3.1 8B：该系列中最小、最快的型号

认识 Llama 3.1

主要功能：

增强的语言理解能力： Llama 3.1 在常识、推理和多语言任务中表现出了更高的性能。
扩展上下文窗口：所有变体都具有 128,000 个令牌上下文窗口，允许处理更长的输入和更复杂的任务。
多模式处理：模型可以处理输入并生成多种格式的输出，包括文本、音频、图像和视频。
高级工具使用： Llama 3.1 擅长涉及工具使用的任务，包括 API 交互和函数调用。
改进的编码能力：模型在编码任务中表现出增强的性能，这对开发人员和数据科学家来说非常有价值。
多语言支持： Llama 3.1 提供了八种语言的增强功能，增强了其在全球应用程序中的实用性。

Llama 3.1 基准测试性能

Llama 3.1 405B 在各种基准测试中都表现出了令人印象深刻的结果：

MMLU（大规模多任务语言理解）：88.6％
HumanEval（编码基准）：89.0%
GSM8K（小学数学 8K）：96.8%
数学（高级数学推理）：73.8%
ARC 挑战：96.9%
GPQA（研究生水平的专业质量保证）：51.1%

这些分数证明了 Llama 3.1 405B 在各个领域与顶级闭源模型的竞争性能。

Llama 3.1 基准测试（元）

可用性和部署：

开源： Llama 3.1模型可以在Meta平台和Hugging Face上下载。
API 访问：可通过各种云平台和合作伙伴生态系统获得。
本地部署：可以在本地或本地运行，无需与 Meta 共享数据。

Llama 3.1 道德考量和安全特性

Meta 针对 Llama 3.1 实施了多项安全措施：

Llama Guard 3：高性能输入和输出调节模型。
Prompt Guard：一种保护 LLM 驱动的应用程序免受恶意提示的工具。
代码防护：提供对 LLM 生成的不安全代码的推理时间过滤。
负责任使用指南：提供模型的道德部署和使用指南。

Llama 3.1 标志着开源 AI 开发的一个重要里程碑，它提供了最先进的性能，同时专注于可访问性和负责任的部署。其改进的功能使其成为领先的闭源模型的强大竞争对手，改变了 AI 研究和应用开发的格局。

访问 Llama 3.1 →

4. Google Gemini 1.5 Pro

谷歌的 Gemini 1.5 Pro 于 2024 年 2 月发布，并于 2024 年 5 月开放公开预览，它也代表了 AI 功能的重大进步，在各种任务和模式下提供了更高的性能。谷歌——欢迎来到双子座时代

主要功能：

多模式处理： Gemini 1.5 Pro 可以处理和生成多种模式的内容，包括文本、图像、音频和视频。
扩展上下文窗口：该模型具有高达 100 万个标记的海量上下文窗口，对于特定用户，可扩展至 200 万个标记。这允许处理大量数据，包括 11 小时的音频、1 小时的视频、30,000 行代码或整本书。
先进的架构： Gemini 1.5 Pro 使用混合专家 (MoE) 架构，根据输入类型有选择地激活其神经网络中最相关的专家通路。
性能提升：谷歌声称，Gemini 1.5 Pro 在用于评估大型语言模型的 87% 基准测试中表现优于其前代产品（Gemini 1.0 Pro）。
增强的安全功能：该模型在推出前经过了严格的安全测试，并实施了强大的技术来降低潜在的人工智能风险。

Gemini 1.5 Pro 基准和性能

Gemini 1.5 Pro 在各种基准测试中都表现出了令人印象深刻的结果：

MMLU（大规模多任务语言理解）：85.9%（5 次设置），91.7%（多数投票设置）
GSM8K（小学数学）：91.7％
数学（高级数学推理）：58.5%
HumanEval（编码基准）：71.9%
VQAv2（视觉问答）：73.2%
MMMU（多学科推理）：58.5%

谷歌报告称，Gemini 1.5 Pro 在 19 个文本基准测试中的 16 个和 21 个视觉基准测试中的 18 个中的表现均优于其前代产品（Gemini 1.0 Ultra）。

Gemini 1.5 Pro 基准测试（谷歌）

主要特性和功能：

音频理解：对口语、语调、情绪和特定声音的分析。
视频分析：对上传的视频或者来自外部链接的视频进行处理。
系统指示：用户可以通过系统指示来指导模型的反应风格。
JSON模式和函数调用：增强结构化输出能力。
长上下文学习：能够从其扩展上下文窗口内的信息中学习新技能。

可用性和部署：

面向开发人员的 Google AI Studio
面向企业客户的 Vertex AI
公共 API 访问

访问 Gemini Pro →

5. xAI 的 Grok-2

Grok-2 由埃隆·马斯克的人工智能公司 xAI 于 2024 年 8 月发布，与其前代产品相比有了重大进步，在各种任务中提供了更高的性能并引入了新功能。

型号变体：

Grok-2：全尺寸、更强大的型号
Grok-2 mini：更小、更高效的版本

主要功能：

增强语言理解：提高常识、推理和语言任务的表现。
实时信息处理：访问和处理来自X（以前称为Twitter）的实时信息。
图像生成：由 Black Forest Labs 的 FLUX.1 模型提供支持，允许根据文本提示创建图像。
高级推理：增强逻辑推理、解决问题和完成复杂任务的能力。
编码辅助：提高编码任务的性能。
多模式处理：处理和生成跨多种模式的内容，包括文本、图像和可能的音频。

Grok-2 基准性能

Grok-2 在各种基准测试中都表现出了令人印象深刻的结果：

GPQA（研究生水平的专业质量保证）：56.0%
MMLU（大规模多任务语言理解）：87.5％
MMLU-专业：75.5％
数学：76.1％
HumanEval（编码基准）：88.4%
MMMU（多模式多任务）：66.1％
MathVista：69.0％
DocVQA：93.6％

这些分数表明 Grok-1.5 有显著的改进，并使 Grok-2 成为其他领先 AI 模型的强劲竞争对手。

Grok-2 基准测试（xAI）

可用性和部署：

X 平台： Grok-2 mini 可供 X Premium 和 Premium+ 用户使用。
企业 API： Grok-2 和 Grok-2 mini 均可通过 xAI 的企业 API 获得。
集成：计划将 Grok-2 集成到各种 X 功能中，包括搜索和回复功能。

独特功能：

“趣味模式”：切换按钮可做出更有趣、更幽默的回应。
实时数据访问：与许多其他 LLM 不同，Grok-2 可以访问来自 X 的当前信息。
最少限制：与一些竞争对手相比，设计中的内容限制更少。

Grok-2 的道德考量和安全问题

Grok-2 的发布引发了人们对内容审核、错误信息风险和版权问题的担忧。xAI 尚未公开详细说明 Grok-2 中实施的具体安全措施，从而引发了关于负责任的 AI 开发和部署的讨论。

Grok-2 代表了人工智能技术的重大进步，提高了各种任务的性能，并引入了图像生成等新功能。然而，它的发布也引发了关于人工智能安全、道德和负责任发展的重要讨论。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/5-ge-zui-jia-da-xing-yu-yan-mo-xing-llm-2024-nian-9-yue

AI 模型 Claude Gemini GPT-4o Grok-2 LLaMA 大型语言模型

Like (0)

AI评测师作者

0 0

SolarWinds：IT 专业人士希望加强对 AI 的监管

Previous 2024年9月19日上午10:00

Adobe Photoshop 评测：为何其 AI 工具让它无与伦比

Next 2024年9月19日下午12:00

技术评测

AI 语言对决：比较 C++、Python、Java 和 Rust 的性能

在人工智能 (AI)开发中，编程语言的选择对于确定项目的效率和成功起着至关重要的作用。C++、Python、Java 和 Rust 各自具有独特的优势和特性，可以显著影响结果。这些…

AI评测师
2024年8月30日
000
技术评测

苹果宣布推出 M4 Max 芯片，首次亮相 MacBook Pro

苹果公司周三发布了 M 系列芯片的最新成员，结束了为期半周的 Mac 发布会。在发布M4 Pro和新款超薄 Mac mini 的第二天，该公司又展示了即将加入MacBook Pro…

王浩然
2024年10月31日
000
技术评测

从微调稳定扩散模型中提取训练数据

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。当艺术家的风格被抄袭，或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时，这可能会提供法…

AI评测师
2024年10月8日
000
技术评测

企业 LLM API：2024 年支持 LLM 应用程序的最佳选择

最近，随着一些重大新闻的出现，企业 AI 领域的竞争正在加速。 OpenAI 的 ChatGPT目前拥有超过2 亿周活跃用户，比一年前增加了 1 亿。这一惊人的增长表明，企业环境中…

AI评测师
2024年9月20日
000
技术评测

Vidyo AI 评论：将 1 小时的视频制作成 22 个热门短片

您是否曾发现自己被长达数小时的视频片段所淹没，希望能够弹指一挥就将其变成引人入胜的社交媒体剪辑？如果您曾经面临将长视频剪辑成简短、引人入胜的内容这一艰巨任务，那么您并不孤单。这个…

王浩然
2024年8月22日
000
技术评测

日历工具 Clockwise 增加了名为 Prism 的全新 AI 界面

智能日程安排和日历工具 Clockwise 正在通过一款名为 Prism 的人工智能助手改变其界面，让您可以管理日程安排冲突、批量创建或清除事件，以及将待办事项列表转换为带有文本提…

王浩然
2024年8月28日
000
AI前沿

利用人工智能节省照片筛选时间

如果您是摄影师，没有什么比在大型活动或拍摄后整理数百张（甚至数千张）照片更耗时的事情了。您是否知道专业摄影师平均每小时拍摄一次，要花 3-4 个小时进行编辑？我最近偶然发现了Af…

AI评测师
2024年10月7日
000
技术评测

如何（以及何时）在 Gmail 和 Google Docs 中使用 Gemini AI

这是 Google Gemini 写作辅助的用武之地，以及如何最好地使用它。

AI评测师
2024年9月2日
000
AI前沿

利用人类注意力可以改善人工智能生成的图像

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型（LDM）生成的图像质量的方法。该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。新研究发现，显著性图（左…

点点
2024年10月17日
000
技术评测

Pixtral 12B 现已上市：Mistral 的新型多模态 AI 可以无限制地分析图像

Mistral AI 终于进军多模态领域。今天，这家法国 AI 初创公司与 OpenAI 和 Anthropic 等公司展开竞争，发布了 Pixtral 12B，这是其首款同时具备…

王浩然
2024年9月15日
000
技术评测

Phrasly 评论：它真的能让 AI 内容听起来像人类吗？

您是否想过，人工智能生成的内容是否真的听起来像人类？我最近遇到了Phrasly，事实证明，它可以将人工智能的效率与人类写作的真实性融为一体！在这篇 Phrasly 评论中，我将讨…

王浩然
2025年1月14日
000
技术评测

掌握 CUDA：面向机器学习工程师

计算能力已成为突破机器学习极限的关键因素。随着模型变得越来越复杂，数据集呈指数级增长，传统的基于 CPU 的计算往往无法满足现代机器学习任务的需求。这就是 CUDA（统一计算设备架…

AI评测师
2024年9月4日
000
技术评测

三问AI手机：什么意图？怎么识别？何种框架？

意图识别框架上，正在酝酿一场从“以手机为中心”到“以人为中心”的交互之变

点点
2024年8月21日
010
技术评测

微软更安全的 Windows Recall 功能也可被用户卸载

为了回应安全问题，微软详细介绍了如何彻底改造其备受争议的人工智能 Recall 功能，该功能可以截取您在计算机上看到或执行的几乎所有操作的屏幕截图。Recall 最初应该在 6 月…

王浩然
2024年9月30日
000
技术评测

Google Lens 现在可以回答有关视频的问题

谷歌正在升级其视觉搜索应用程序 Lens，使其能够近乎实时地回答有关您周围环境的问题。安装了Google 应用的英语 Android 和 iOS 用户现在可以开始通过 Lens …

王浩然
2024年10月6日
000
技术评测

研究发现，微调人工智能模型造成的损害可以轻松恢复

来自美国的一项新研究表明，根据自己的数据对人工智能基础模型进行微调并不会降低或损害原始模型的功能——而且相对简单的修复不仅可以恢复原始模型的功能，而且实际上还可以提高你试图让（已经…

AI评测师
2024年10月5日
000
技术评测

iOS 18 的隐藏功能和小更新指南

苹果的iOS 18 更新于 9 月 16 日向所有用户推出。在 Apple Intelligence 发布之前，最重要的新功能是能够在主屏幕上自定义图标、在锁定屏幕上交换应用程序快…

AI评测师
2024年9月23日
000
AI前沿

使用 LlamaIndex 和 Gemini 实现 REAcT Agent

在过去的 2-3 年里，我们见证了人工智能领域的非凡发展，主要体现在大型语言模型、扩散模型、多模态模型等方面。我最喜欢的兴趣之一是代理工作流。今年早些时候，Coursera 的创始…

王浩然
2024年10月20日
000
技术评测

PromeAI 评测：将简单的草图变成令人惊叹的图像

作为一名创意专业人士，您是否曾盯着一张草图，了解它的潜力，却又害怕花费数小时将其打磨成精美的设计？您并不孤单！许多设计师都在努力平衡产品设计中的系统方法和创造力，尤其是在初创环境中…

AI评测师
2024年9月14日
000
技术评测

Google 如何让 Medium.com 的抄袭内容超越原创内容

多年来，Google 一直向网站站长社区强调，原创、高质量的内容是获得良好搜索结果排名的关键。Google 的系统旨在奖励那些展现出EEAT（专业性、经验性、权威性和可信度）的内容…

AI评测师
2024年10月5日
000