当前位置 > 散户吧 > 财经要闻 > 经营管理 > 昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

发布时间:2025-03-19 10:40来源:全球财经散户吧字号:

  3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。 本文来自散户吧WWW.SANHUBA.COM

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

本文来自散户吧WWW.SANHUBA.COM

  模型权重下载

本文来自散户吧WWW.SANHUBA.COM

  Hugging Face:

本文来自散户吧WWW.SANHUBA.COM

  https://huggingface.co/Skywork/Skywork-R1V-38B

本文来自散户吧WWW.SANHUBA.COM

  GitHub: 本文来自散户吧WWW.SANHUBA.COM

  https://github.com/SkyworkAI/Skywork-R1V 本文来自散户吧WWW.SANHUBA.COM

  详细技术报告 本文来自散户吧WWW.SANHUBA.COM

  https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf 本文来自散户吧WWW.SANHUBA.COM

  开启多模态思考新时代

本文来自散户吧WWW.SANHUBA.COM

  继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源「多模态推理模型」的企业。

本文来自散户吧WWW.SANHUBA.COM

  什么是视觉推理模型?

本文来自散户吧WWW.SANHUBA.COM

  视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。 本文来自散户吧WWW.SANHUBA.COM

  无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。 本文来自散户吧WWW.SANHUBA.COM

  快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢? 本文来自散户吧WWW.SANHUBA.COM

  强大推理能力,刷新跨模态任务新高度 本文来自散户吧WWW.SANHUBA.COM

  在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。

本文来自散户吧WWW.SANHUBA.COM

  在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。

本文来自散户吧WWW.SANHUBA.COM

  Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。 本文来自散户吧WWW.SANHUBA.COM

  目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。 本文来自散户吧WWW.SANHUBA.COM

  和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比: 本文来自散户吧WWW.SANHUBA.COM

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

本文来自散户吧WWW.SANHUBA.COM

  与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比: 本文来自散户吧WWW.SANHUBA.COM

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代 本文来自散户吧WWW.SANHUBA.COM

  三大核心技术创新,引领视觉推理新突破 本文来自散户吧WWW.SANHUBA.COM

  Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:

本文来自散户吧WWW.SANHUBA.COM

  1、文本推理能力的多模态高效迁移 本文来自散户吧WWW.SANHUBA.COM

  昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。

本文来自散户吧WWW.SANHUBA.COM

  2、多模态混合式训练(Iterative SFT+GRPO)

本文来自散户吧WWW.SANHUBA.COM

  通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。 本文来自散户吧WWW.SANHUBA.COM

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

本文来自散户吧WWW.SANHUBA.COM

  图丨多模态混合式训练(来源:Skywork R1V技术报告)

  3、自适应长度思维链蒸馏 本文来自散户吧WWW.SANHUBA.COM

(小编:财神)

专家一览机构一览行业一览