昆仑万维「天工大模型4.0」o1版（Skyworko1）正式启动邀请测试

来源：YPS数据挖掘大师　作者：YPS行业综合门户　2024-11-27 　浏览：179 　字号：[大中小] 　背景颜色：

　　今天，昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。

　　Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作，Skywork o1不仅在模型输出上内生了思考、计划、反思等能力，同时，该开源模型在标准评测集上，对比普通模型推理能力大幅上升，真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线，使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

　　此次发布的Skywork o1包括三款模型，既有回馈开源社区的开放版本，也有能力更强的专用版本：

　　Skywork o1 Open：一款基于Llama 3.1 8B的开源模型，该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平，并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。

　　Skywork o1 Lite：该模型具备完整的思考能力，具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。

　　Skywork o1 Preview：这款模型是本次完整版的推理模型，搭配自研的线上推理算法，对比Skywork o1 Lite有着更多样和“深度”的思考过程，更完善和更高质量的推理。

　　其中，我们开源的Skywork o1 Open，在各项数学和代码指标上均有大幅提高，将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时，8B的Skywork o1 Open也解锁了很多较大量级模型，如GPT 4o，无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。

　　同时，我们也将开源两个推理任务的Process Reward Model(PRM)：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分，Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

　　对比开源社区现有的PRM，Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果，例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型，使用不同PRM在数学和代码评测集上的评估结果。

　　除Skywork-o1-Open-PRM外，其他开源PRM均未针对代码类任务进行专门优化，故不进行代码任务的相关对比。

　　详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

　　强推理以及自我反思的能力是如何练成的？

　　Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案：

　　推理反思能力训练：通过自研的多智能体体系构造高质量的分步思考，反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。

　　推理能力强化学习：团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

　　推理planning：基于天工自研的Q*线上推理算法配合模型在线思考，并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

　　亮点功能与实测

　　Skywork o1模型具有以下能力和亮点功能：

　　模型思考和规划能力

　　模型自我反思能力

　　模型自我验证能力

　　相较于此前(长文本任务)大模型，无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等，Skywork o1都处理的游刃有余。整体来说，Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

　　进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用，例如：

　　中英文常见逻辑推理和复杂任务，如数学/代码类任务，科学研究

　　高质量内容生成，如创意写作，行业报告写作

　　深度搜索，解锁复杂搜索任务的拆解

　　2024年以来，昆仑万维天工AI持续进化，陆续发布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o，以及今天正式发布的“天工大模型4.0” o1版(Skywork o1)，不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措，更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能，让每个人更好地塑造和表达自我”的使命，从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

业务流程

用户注册条款
交费流程
新手操作指南
网店审核流程

支付方式

在线支付
微信/支付宝扫码
银行/ATM机转账

快速链接

站务咨询论坛
客户留言/客户反馈
店铺管理
用户管理中心

常见问题

交费常见问题
开网店常见问题
发布信息常见问题
论坛积分规则

服务与支持

关于我们
联系方式
广告招商
诚聘英才

鲁ICP备13010283号
技术支持: 奈薇 · YPS

咨询热线：0532-88781131　15166683288　13963906391

[YPS大型行业门户网站系统] 打造中国第一行业门户，助您问鼎行业巅峰！

未经授权禁止抄袭、镜像本站. 如有违反，追究法律责任.

yps.yuhou.cn

[ YPS行业综合门户 ]