3月24日晚间,杭州深度求索发布了模型更新——DeepSeek-V3-0324。本次更新为DeepSeek V3模型的版本更新,并非市场此前一直期待的DeepSeek-V4或R2。目前已在Hugging Face上开源,并迅速登上了Trending榜单。据悉,其开源版本模型体积为6850亿参数。从命名方式来看,属于V3的小幅改进版本,然而它的能力却不是小幅改进。
性能升级
-
编程能力飞跃:代码生成能力大幅提升,能够生成复杂且高质量的代码,甚至在某些场景下接近或超越Claude 3.7。在标准编程任务中,代码直接运行成功率达到87.5%,接近Claude 3.7的89.1%。
-
推理性能优化:在消费级硬件(如Mac Studio)上实现了每秒20个token的推理速率,相比原版DeepSeek V3,推理速度提升约15%-20%。
-
知识准确性改进:在事实性知识方面的准确度有明显提高,知识准确性达到92.5%,接近Claude 3.7 Sonnet。
功能优化
- 响应速度提升:通过关闭“深度思考”功能,优化了实时交互体验,尤其适合代码生成与简单问答场景。
-
默认关闭“深度思考”模式:优化了实时交互体验,使模型响应更迅速,更适用于需要快速响应的场景。
-
API稳定性:接口和调用方式与V3保持一致,开发者无需修改现有代码即可无缝切换至新版本。
-
多平台支持:用户可通过DeepSeek官网、移动应用、API或第三方平台(如OpenRouter)访问模型。
- 无缝兼容:API 接口与使用方式未变,现有用户无需调整代码即可接入新模型。大大降低了升级成本。
开源与体验
- 开源许可:采用更开放的 MIT 协议,继续免费开源。这一协议更为宽松,允许模型蒸馏、商用等行为,给了开发者更多的自主权。
-
开源策略:模型在Hugging Face上开源,全球用户可以免费下载、修改和部署,推动了AI技术的普及和创新。,吸引了更多开发者参与进来,共同推动项目的进步。
总结
DeepSeek-V3-0324 的发布,标志着 DeepSeek 在编程能力和数学模型优化方面的又一重大突破。通过提升编程与数学能力,优化响应速度,并继续保持开源策略,DeepSeek 正在为更多开发者和用户带来高效、智能的解决方案。
官方网站、APP、小程序已开放试用,用户可亲身体验新模型的强大功能。
开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...