主流大语言模型有哪些

24人浏览 / 0人评论 / 添加收藏

当前大语言模型市场,大致形成了闭源与开源两大阵营分庭抗礼的格局。简单来说,闭源模型通常是追求极致性能的“全能冠军”,而开源模型则是兼顾性价比与灵活性的“定制利器”。下面为你梳理了截至2026年6月的主流模型概览。

🌍 主流大语言模型全景概览

国际顶流 (闭源)

Claude Opus 4.7:Anthropic开发,顶尖的代码能力,适合复杂编程与长文档分析。SWE-bench 达 87.6%;百万上下文。

GPT-5.5:OpenAI开发,Agent(智能体)生态完善,在多Agent协作场景表现出色。Terminal-Bench 2.0 得分 82.7%。

Gemini 3.1 Pro:Google开发,推理与科学问答能力强,适合需要严谨逻辑的场合。GPQA 得分 94.3%。

Grok 4.20:xAI开发,擅长多Agent辩论,抗“幻觉”能力强,适合需要高可靠性的场景。AA-Omniscience 得分 78%。

国产主力 (闭源)

Qwen3.7-Max:阿里开发,全能Agent基座,支持 35 小时以上长周期任务,跨框架适配强。AA基准 57 分。

DeepSeek V4 Pro:深度求索开发,性价比之王(约$0.87/百万Token),代码/数学能力突出。AA Index 得分 58.6。

GLM-5.1:智谱华章开发,性价比高,国内主流应用,编程能力出众。

Hy3 Preview:腾讯开发,Token调用量高,应用广泛。

开源/开放模型

DeepSeek V4 Flash:国产代表,全球最便宜的模型之一(仅约$0.07/百万Token),基于MIT协议。

Qwen系列:阿里开发,高性能版本开放权重,MIT协议,1M上下文。SWE-bench 80.4%。

Kimi K2.6:月之暗面开发,支持256K上下文,专注于长文本和Agent任务,MIT协议。SWE-bench 80.2%。

Llama 4系列:Meta开发,Llama 4 Scout支持1000万Token上下文,适合超长文档处理。

Mistral Large 3:欧洲最强,Apache 2.0协议,675B/41B参数。

其他值得关注的模型

MiniMax abab:MiniMax(国产),擅长文本批量处理与分类,性价比高。

Cohere Command R+:Cohere开发,专为RAG优化的模型,检索增强生成能力强。

Microsoft Phi-4:微软开发,轻量模型,适合本地部署的边缘计算场景。

Nemotron 3 Ultra:英伟达开发,英伟达最强开源,但与国产顶级开源模型仍有差距。

主流模型的核心阵营与定位:

🥇 闭源模型阵营:追求极致性能与体验

闭源模型通过API提供服务,用户无法获取底层代码或权重。它们更像是“高端软件即服务”,目标是实现最顶尖的性能和最好的用户体验。

国际顶流 (GPT, Claude, Gemini):经过数年迭代,生态成熟。以Claude Opus 4.7在编程领域的领先和GPT-5.5智能体生态的完善为代表,继续引领技术前沿。

国产主力 (文心一言, 通义千问, 混元等):凭借对中文语境的深度优化和高性价比,在中文市场形成巨大优势。例如DeepSeek V4 Pro的成本仅为OpenAI模型的几十分之一,极大降低了企业和开发者的使用门槛。

🛠️ 开源模型阵营:拥抱开放与定制自由

开源模型则提供了模型权重、核心代码乃至训练数据,允许开发者和企业在本地或自有服务器上自由部署、修改甚至商用。它强调的是技术透明、数据安全和定制自由。

代表模型:如Llama 4、Qwen(开源版)、DeepSeek-V4、Mistral等。

核心优势:解决了闭源模型在数据隐私、长期成本和灵活性方面的根本问题。据估算,其使用成本仅为顶级闭源模型的4到10分之一。例如,一些国产开源模型的SWE-bench得分已逼近甚至超越部分国际闭源模型。

🎯 场景选型参考:如何选择适合你的模型?

了解了整体格局后,在具体选型时可以参考以下框架:

 
 
主要能力需求 ⭐ 推荐模型 选型理由
🚀 复杂编程与架构设计 Claude Opus 4.7、DeepSeek V4 Pro 代码能力最强,Claude适合大型项目,DeepSeek性价比高。
💡 科学研究与数学推理 Qwen3.7-Max、Gemini 3.1 Pro 数学推理与多学科知识能力突出。
💬 大规模智能体编排 GPT-5.5、Grok 4.20 Agent生态完善,在多任务协同、任务拆解上表现稳定。
💰 成本极度敏感 DeepSeek V4 Flash、GLM-5.1 DeepSeek V4 Flash价格全球最低,GLM-5.1兼具性能与低成本的平衡。
🔒 数据隐私与垂直领域 Llama 4、Qwen系列(开源版) 本地化部署确保数据安全,可针对垂直任务进行深度微调。
🌐 多语言与跨文化任务 Qwen3.7-Max、Mistral Large 3 Qwen多语言能力顶尖,Mistral对欧洲语言场景更优化。
📄 超长文档处理 Llama 4 Scout、Kimi K2.6 Llama 4 Scout支持1000万Token上下文,Kimi K2.6的长文本是其核心定位。
🖼️ 图文多模态理解 Gemini 3.1 Pro、GPT-5.5 支持图文输入,在多模态理解和跨模态生成任务上表现稳定。

需要注意的是,不同排名榜单的侧重点各异。例如,Artificial Analysis的榜单衡量模型综合能力,而SWE-bench则更聚焦于编程能力。

💎 总结

选择大模型,本质上是在“极致性能”、“性价比”和“可控性”之间寻找平衡点

追求无忧体验和最强性能,高预算的商业闭源API是首选。

注重数据安全、成本控制和长期灵活性,开源模型是更契合你需求的路。

主流大语言模型

以下是主流大语言模型的官网与 API 文档地址整理:

模型名称 所属公司/组织 官网 API文档地址

GPT系列 (GPT-5.2/GPT-4o)

OpenAI

https://openai.com/

https://platform.openai.com/docs/api-reference

Claude系列 (Opus 4.6/Sonnet 4.5)

Anthropic

https://www.anthropic.com/

https://docs.anthropic.com/claude/reference/getting-started-with-the-api

Gemini系列 (Gemini 3 Pro/Flash)

Google

https://deepmind.google/technologies/gemini/

https://docs.gemini.com/rest-api/

通义千问 (Qwen 3.0系列)

阿里巴巴

https://www.qianwen.com/

https://help.aliyun.com/zh/dashscope/developer-reference/api-details

文心一言 (ERNIE 5.0系列)

百度

https://yiyan.baidu.com/

https://qianfan.cloud.baidu.com/docs/

智谱清言 (GLM-4.7系列)

智谱AI

https://chatglm.cn/

https://open.bigmodel.cn/dev/api

Kimi (Moonshot K2.5系列)

月之暗面

https://kimi.moonshot.cn/

https://platform.moonshot.cn/docs/api/chat

讯飞星火大模型

科大讯飞

https://xinghuo.xfyun.cn/

https://www.xfyun.cn/doc/spark/Web.html

DeepSeek系列

DeepSeek

https://www.deepseek.com/

https://api-docs.deepseek.com/

Llama系列 (Llama 3.1/Llama 4)

Meta

https://www.llama.com/

https://www.llama.com/docs/overview/

Grok系列 (Grok 4.1)

xAI

https://x.ai/

https://docs.x.ai/overview

MiniMax (M2.1系列)

MiniMax

https://www.minimaxi.com/

https://api.minimax.chat/docs/api/

百川智能 (Baichuan 3系列)

百川智能

https://www.baichuan-ai.com/

https://platform.baichuan-ai.com/docs/api

Ollama (本地部署模型)

Ollama

https://ollama.com/

https://github.com/ollama/ollama/blob/main/docs/api.md

豆包大模型

字节跳动

https://www.doubao.com/

https://www.volcengine.com/docs/82379/1399008?lang=zh

全部评论