1638 字
8 分钟
DeepSeek V4正式发布:1.6万亿参数、百万上下文,开源最强模型来了

DeepSeek V4正式发布:1.6万亿参数、百万上下文,开源最强模型来了#

引言#

2026年4月24日,在经历了数月的期待和传闻后,中国AI实验室DeepSeek终于正式发布了 DeepSeek V4 系列模型。

这不是一次常规的版本迭代。DeepSeek V4以1.6万亿总参数量、默认100万token上下文窗口、以及极具颠覆性的API定价,向整个行业投下了一枚重磅炸弹。

本文将基于官方技术报告和实测数据,全面解读这款可能改变行业格局的模型。

DeepSeek V4系列概览#

DeepSeek V4包含两个版本,均采用MoE(混合专家)架构:

版本总参数量激活参数量定位下载大小
V4-Pro1.6万亿490亿顶级性能,对标闭源旗舰865GB
V4-Flash2840亿130亿快速、高效、经济160GB

两个版本均已开源,采用 MIT许可证,这意味着你可以自由使用、修改甚至用于商业用途。

核心特性#

1. 混合注意力架构:100万上下文不再是负担#

DeepSeek V4最核心的技术突破在于其 混合注意力架构,结合了两种创新机制:

  • CSA(压缩稀疏注意力):对大部分token进行稀疏采样
  • HCA(重度压缩注意力):对关键信息进行深度压缩存储

这套架构带来的效果是惊人的:

在100万token的上下文场景中,V4-Pro的单token推理FLOPs仅为前代V3.2的27%,KV缓存占用仅为10%

换句话说,100万上下文在V4上不再是”奢侈品”,而是标配。所有官方DeepSeek服务默认支持100万上下文。

2. 三种推理模式#

DeepSeek V4提供了三种推理力度控制:

模式特点适用场景
Non-Think快速、直觉式响应日常任务、低风险决策
Think High深度逻辑分析,较慢但准确复杂问题求解
Think Max推理能力推到极致探索模型能力边界

这种设计让开发者可以在延迟和性能之间做精细权衡。

3. 原生智能体能力#

DeepSeek V4在Agent场景的优化非常突出:

  • 已无缝集成 Claude CodeOpenClawOpenCode 等主流AI编程助手
  • 已在DeepSeek内部驱动自动编码基础设施
  • 在SWE-bench Pro上达到 55.4%,Terminal-Bench 2.0达到 67.9%

4. 训练优化#

底层训练层面,DeepSeek引入了:

  • Manifold-Constrained Hyper-Connections (mHC):强化残差连接,稳定信号传播
  • Muon Optimizer:更快的收敛速度和训练稳定性
  • 在超过 32万亿 多样化token上进行预训练

基准测试表现#

知识与推理#

基准V4-Pro-MaxGPT-5.4Gemini-3.1-ProClaude Opus 4.7
MMLU-Pro87.5%~90%~91%~89%
GPQA Diamond90.1%~93%~94%~91%
GSM8K92.6%~95%~96%~93%

V4-Pro在知识和推理方面超越了所有开源模型,在部分指标上甚至超越了GPT-5.2。虽然与最前沿的GPT-5.4和Gemini-3.1-Pro仍有3-6个月的差距,但已经非常接近。

编程与智能体#

基准V4-Pro-MaxGPT-5.5Claude Opus 4.7
SWE-bench Pro55.4%58.6%64.3%
Terminal-Bench 2.067.9%82.7%69.4%

在编程基准上,V4-Pro略逊于GPT-5.5和Opus 4.7,但DeepSeek内部测试显示它已经超越了Claude Sonnet 4.5,接近Opus 4.5水平。

长上下文#

这是V4的最大亮点:

  • MRCR 1M(MMR)检索测试:83.5%

这一成绩甚至 超越了Gemini-3.1-Pro 在学术长上下文基准上的表现。100万上下文不只是数字,而是实打实的能力。

V4-Pro vs V4-Flash#

Flash版本由于参数更少,在纯知识测试中自然低于Pro。但如果给它更大的”推理预算”,它的推理分数可以达到与旧版前沿模型相当的水平,使其成为高负载工作的极致性价比选择。

定价:真正的颠覆点#

如果说性能是V4的一半故事,那定价就是另一半。

模型输入(每百万token)输出(每百万token)
V4-Pro$1.74$3.48
V4-Flash$0.14$0.28
GPT-5.5$5.00$30.00
Claude Opus 4.7$5.00$25.00

V4-Pro的价格约为GPT-5.5和Opus 4.7的 三分之一。而V4-Flash更是低至 0.14美元/百万输入,甚至比GPT-5.4 Nano还便宜。

这不只是竞争,这是降维打击。

如何获取#

DeepSeek V4提供了多种访问方式:

  1. 网页端:chat.deepseek.com,Instant Mode对应Flash,Expert Mode对应Pro
  2. API:将model参数更新为 deepseek-v4-prodeepseek-v4-flash,兼容OpenAI和Anthropic API格式
  3. 开源权重:Hugging Face或ModelScope下载,MIT许可证

注意:旧版 deepseek-chatdeepseek-reasoner 模型将于2026年7月24日完全下线。

最佳应用场景#

基于V4的能力特点,以下场景最适合发挥其优势:

自动化软件工程#

强大的智能体编码能力使其成为自主代码重构和调试的理想选择,尤其是在集成Claude Code等工具后。

海量文档处理#

100万上下文窗口加上极低的计算成本,意味着金融分析师和法律团队可以以极低的价格处理大量PDF、财报和合同。

from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.deepseek.com"
)
# 分析百万token级别的文档
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{
"role": "user",
"content": "请分析以下100页合同中的关键条款和风险点..."
}],
max_tokens=4000
)
print(response.choices[0].message.content)

本地部署与研究#

MIT许可证意味着研究人员可以对Flash模型(160GB)进行量化实验,在高端消费级硬件上运行前沿级别的AI。

行业影响#

DeepSeek V4的发布对行业的影响是深远的:

  1. 开源vs闭源的平衡点正在改变 — 一个MIT许可证的模型已经能够逼近闭源旗舰的性能
  2. 100万上下文成为新标准 — 不再是少数模型的炫耀指标,而是实际可用的能力
  3. 定价战已经开始 — V4的定价给OpenAI和Anthropic带来了巨大的降价压力
  4. 中美AI竞争格局变化 — 中国模型在全球调用量上连续五周超越美国,V4将进一步加强这一趋势

总结#

DeepSeek V4不只是一个技术升级,它是开源AI社区的一个里程碑。

虽然在最难的编码和推理基准上,GPT-5.5和Claude Opus 4.7仍然领先,但DeepSeek V4以大约三分之一的价格提供了接近前沿的性能,加上100万上下文和MIT开源许可——这让它成为高音量企业任务、开源研究者和预算敏感开发者的最佳选择。

DeepSeek用V4证明了一件事:顶级AI能力不应该是少数人的特权。


参考链接: