DeepSeek深夜悄悄放大招,编程与数学能力大大提升!

3月24日晚间,杭州深度求索发布了模型更新——DeepSeek-V3-0324。本次更新为DeepSeek V3模型的版本更新,并非市场此前一直期待的DeepSeek-V4或R2。目前已在Hugging Face上开源,并迅速登上了Trending榜单。据悉,其开源版本模型体积为6850亿参数。从命名方式来看,属于V3的小幅改进版本,然而它的能力却不是小幅改进。

性能升级

  • 编程能力飞跃:代码生成能力大幅提升,能够生成复杂且高质量的代码,甚至在某些场景下接近或超越Claude 3.7。在标准编程任务中,代码直接运行成功率达到87.5%,接近Claude 3.7的89.1%。
  • 推理性能优化:在消费级硬件(如Mac Studio)上实现了每秒20个token的推理速率,相比原版DeepSeek V3,推理速度提升约15%-20%。
  • 知识准确性改进:在事实性知识方面的准确度有明显提高,知识准确性达到92.5%,接近Claude 3.7 Sonnet。

功能优化

  • 响应速度提升:通过关闭“深度思考”功能,优化了实时交互体验,尤其适合代码生成与简单问答场景。
  • 默认关闭“深度思考”模式:优化了实时交互体验,使模型响应更迅速,更适用于需要快速响应的场景。
  • API稳定性:接口和调用方式与V3保持一致,开发者无需修改现有代码即可无缝切换至新版本。
  • 多平台支持:用户可通过DeepSeek官网、移动应用、API或第三方平台(如OpenRouter)访问模型。
  • 无缝兼容:API 接口与使用方式未变,现有用户无需调整代码即可接入新模型。大大降低了升级成本。

开源与体验

  • 开源许可:采用更开放的 MIT 协议,继续免费开源。这一协议更为宽松,允许模型蒸馏、商用等行为,给了开发者更多的自主权
  • 开源策略:模型在Hugging Face上开源,全球用户可以免费下载、修改和部署,推动了AI技术的普及和创新。,吸引了更多开发者参与进来,共同推动项目的进步。

总结

DeepSeek-V3-0324 的发布,标志着 DeepSeek 在编程能力和数学模型优化方面的又一重大突破。通过提升编程与数学能力,优化响应速度,并继续保持开源策略,DeepSeek 正在为更多开发者和用户带来高效、智能的解决方案。

官方网站、APP、小程序已开放试用,用户可亲身体验新模型的强大功能。

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

© 版权声明

相关文章

暂无评论

none
暂无评论...