专题:DeepSeek为何能震动全球AI圈
来源:AIGC新知
就在刚刚,DeepSeek创始人梁文锋发了新帖子,DeepSeek的三款最新多模态模型已经发布到github和huggingface。
github:https://github.com/deepseek-ai/Janus
huggingface:https://huggingface.co/deepseek-ai/Janus
Janus-Pro是前代模型Janus的升级版本,其核心改进包括:(1)优化的训练策略;(2)扩展的训练数据规模;(3)更大参数量的模型架构。通过这些改进,Janus-Pro在多模态理解、文本到图像的指令跟随能力上均取得显著提升,同时增强了图像生成的稳定性。
Janus是一种创新的自回归框架,通过将视觉编码解耦为独立路径,统一多模态理解与生成任务。它在保持单一Transformer架构的同时,缓解了视觉编码器在理解与生成任务中的角色冲突,并提升了框架灵活性。Janus不仅超越此前统一模型,还可与专用模型性能匹敌甚至更优,其简洁性、高灵活性和有效性使其成为下一代多模态统一模型的代表。
JanusFlow提出一种极简架构,将自回归语言模型与生成建模领域的先进方法“校正流(Rectified Flow)”结合。研究发现,校正流可直接集成于大语言模型框架内训练,无需复杂结构调整。实验表明,JanusFlow在专业领域任务中性能与专用模型相当或更优,同时在标准基准测试中显著优于现有统一方法,为高效通用的视觉语言模型提供了新思路。
模型已开源,支持学术与商业用途,具体使用需遵循许可条款。
此外,有知乎网友发表帖子称,DeepSeek此举会坐空英伟达,毕竟幻方量化不差钱🙃,英伟达现在芯片股已经跌到15%了。