迈向智能体时代的第一步！DeepSeek V3.1发布，上下文扩展至128K，影响有多大？

adminddos 2025-08-21 16:50:29 1 抢沙发

默认

摘要： ...

国产大模型公司深度求索旗下DeepSeek低调上新，多领域能力提升。

8月21日下午，DeepSeek正式发布DeepSeek-V3.1，称其为“迈向Agent（智能体）时代的第一步”。8月20日晚间，DeepSeek低调上线DeepSeek V3.1，此次升级推出的新功能引发广泛关注，V3.1已在HuggingFace趋势榜排名第三。

据介绍，V3.1包含三大主要变化。首先，V3.1采用混合推理架构，一个模型同时支持思考模式与非思考模式；其次，V3.1具有更高的思考效率，相比DeepSeek-R1-0528，DeepSeek-V3.1-Think能在更短时间内给出答案；另外，V3.1具有更强的Agent能力，通过Post-Training优化，新模型在工具使用与智能体任务中的表现有较大提升。

在技术架构层面，V3.1继承了DeepSeekV3系列的关键技术，包括MLA、MoE等，参数量与V3版本相同。

DeepSeekV3.1最引人注目的升级之一是将上下文窗口从原有的64k扩展至128k，意味着其可以处理更长篇幅的文档和代码，并在回答内容上进一步增加信息，提供更多细节，语气更为活泼。

从官方APP和网页端的显示来看，DeepSeek去掉了“深度思考(R1)”中的“R1”标识。同时，与V3-base相比，DeepSeekV3.1新增了四个特殊Token。虽然目前DeepSeek官方尚未发布任何关于这一改动的消息，有推测认为，这可能暗示着推理模型R系列与非推理模型V系列的融合，以此实现GPU资源复用。

同时，V3.1在编程任务中表现突出。根据社区使用Aider测试数据，V3.1在AiderPolyglot多语言编程测试中，拿下了71.6%的高分，超越了Claude4Opus和DeepSeekR1等模型。在SVGBench基准测试中，其实力仅次于GPT-4.1-mini，远超DeepSeekR1。

DeepSeek方面表示，V3.1在多项搜索评测指标上也取得了较大提升。在需要多步推理的复杂搜索测试（browsecomp）与多学科专家级难题测试（HLE）上，DeepSeek-V3.1 性能已大幅领先 R1-0528。

在多语言支持方面，V3.1也进行了明显的能力优化，目前能处理超过100种语言，尤其优化了亚洲语言和资源较少语种的运用。

此外，V3.1在Token使用量方面较0324版本下降约13%，每次完整编程任务仅需1.01美元，成本仅为专有系统的六十分之一，具有节约成本的优势。

值得注意的是，DeepSeek也宣布，9月6日凌晨起，对DeepSeek开放平台 API 接口调用价格进行调整并取消夜间时段优惠。输入：0.5元/百万tokens（缓存命中），4元/百万tokens（缓存未命中）；输出：12元/百万tokens。今年2月，DeepSeek曾经宣布，北京时间每日 00:30 至 08:30 的夜间空闲时段，DeepSeek开放平台推出错峰优惠活动。在此期间，API 调用价格大幅下调：DeepSeek-V3 降至原价的 50%，DeepSeek-R1 更低至 25%。V3标准时间段收费为：输入：0.5元/百万tokens（缓存命中），2元/百万tokens（缓存未命中）；输出：8元/百万tokens。

DeepSeek新模型一经推出，便在技术社区拥有超高人气和受关注度，一举冲到HuggingFace趋势榜第三。

不过，虽然V3.1在多个方面有进步，但部分功能体验也受到网友诟病。多名测试者反馈，V3.1在数学推理、逻辑分析等综合推理任务中无明显进步，甚至在部分场景下表现不及旧版，也未看到“幻觉”问题的改善迹象，还出现了“中英文混杂”的新问题。在一些特定领域，如研究生级基准问答、软件工程的某些复杂场景中，与顶尖模型如GPT-5相比仍有一定差距。

在其他大模型方面，市场竞争依然激烈，动作频出。OpenAI筹划万亿级AI基建、Meta计划再次重组其AI业务、智谱发布手机AgentAutoGLM2.0……根据ArtificialAnalysis最新大模型排名榜单，DeepSeek已从昔日“领跑”变为“中游”水平，OpenAI、Google、阿里巴巴等竞争对手跃至前位。

虽然自DeepSeek-R1推理大模型发布后，圈内始终对DeepSeek保持高度关注，期待其继续成为国产“黑马”，但其长期的“沉默”，也确实带来了用户的流失，QuestMobile在《2025年二季度AI应用价值榜》中提到，DeepSeek月均下载量从第一季度的8111.3万猛降至2258.9万，下滑超过70%。活跃用户规模方面，从2025年3月的1936.1万降至6月的1629.5万，下滑趋势明显。

近日，有市场传言称，DeepSeek R2有望在8月15日至30日期间发布。8月13日，DeepSeek内部人士向澎湃新闻记者表示，上述消息不属实。

尽管官方流量下滑，但DeepSeek仍有市场潜力，其开源模型被腾讯、字节跳动、阿里、百度等众多第三方平台广泛接入，据估算有超过70%的DeepSeek模型调用量发生在这些第三方平台。Token消耗量上，DeepSeek系列7月31日单日总Token用量达到70.5B，6月29日单日总Token用量达到54B，环比增长接近31%。

第三方机构onelittleweb分析显示，就其全球市场表现而言，DeepSeek模型以3.96%的市场份额在全球AI聊天机器人中综合评分排名第五，年度访问量达27.4亿次。

海报

阅读