韩国伦理片-telegram 萝莉 字节新推理模子逆袭DeepSeek,200B参数校服671B,豆包史诗级加强?
你的位置:韩国伦理片 > 美女车模 > telegram 萝莉 字节新推理模子逆袭DeepSeek,200B参数校服671B,豆包史诗级加强?
telegram 萝莉 字节新推理模子逆袭DeepSeek,200B参数校服671B,豆包史诗级加强?
发布日期:2025-07-06 12:10     点击次数:98

telegram 萝莉 字节新推理模子逆袭DeepSeek,200B参数校服671B,豆包史诗级加强?

字节最新深度想考模子telegram 萝莉,在数学、代码等多项推理任务中极端 DeepSeek-R1 了?并且参数限制更小。

雷同是 MoE 架构,字节新模子 Seed-Thinking-v1.5 有 200B 总参数和 20B 激活参数。

对比 DeepSeek-R1 的 671B 总参数和 37B 激活参数,不错算得上轻量级了。

现在,完满的时候答复已公拓荒布,其中揭示了诸多窍门。

字节 Seed 团队聚焦大限制强化学习,并从三个角度普及了推理进展:数据、RL 算法和 RL 基础要领。

可考证与不成考证问题

从数据开动提及,字节团队把 RL 教师数据分为两个部分,具有明确谜底的可考证问题和莫得明确谜底的不成考证问题,接纳不同的奖励建模依次。

这其中,模子的推贤人商主要来自可考证问题,并不错推行到不成考证问题。

可考证问题包括问题与谜底配对的 STEM 问题、附带单位测试的代码问题,以及适当自动考证的逻辑推理问题(24 点、迷宫、数独等)。

不成考证问题主要包括笔据东说念主类偏好评估的非推理任务,如创意写稿、翻译、常识 QA、变装束演等。

关于不成考证问题,字节团队丢弃了样分内数方差低、难度低的数据。此类数据可能过于简便或已在数据汇注精深示意。离线实验标明,过度优化此类样本会导致模子的探索空间过早崩溃并镌汰性能。

此外,团队还打造了全新数学推理评测集 BeyondAIME。

现时的推理模子等闲使用 AIME 行为评估数学推贤人商的首选基准,但该基准每年只发布 30 个问题,有限的限制可能会导致高方差的评估为止,难以有用分裂开首进的推理模子。

字节与数学人人互助,笔据既定的比赛形态拓荒原创问题。通过结构修改和景色再行设立来系统地和谐现存的比赛问题,确保不会发生径直重叠。此外还确保谜底不是容易猜的数值(举例问题论说中明确提到的数字),以减少模子在莫得适当推理的情况下猜出正确谜底的契机。

RL 算法

强化学习诚然远大,但教师起来也很不走漏,通常崩溃。

字节在时候答复中提到"巧合,两次运行之间的分数各异可能高达 10 分"。

针对这个问题,团队建议了 VAPO 和 DAPO 两个 RL 框架,分别从基于价值和无价值的 RL 范式启航来走漏教师。

VAPO 和 DAPO 两篇论文都已单独发布。

此外,在 Seed-Thining-v1.5 中,还模仿了之前学术界使命中的好多漏洞时候:

价值预教师 ( Value-Pretraining ) ,保证价值聚集和策略聚集一致

解耦的 GAE ( Decoupled-GAE ) ,让两个聚集更孤苦高效

长度自适合 GAE ( Length-adaptive GAE ) ,更公务理不同长度序列

解耦 PPO 亏损 ( Clip-Higher ) ,为低概率 token 的增长创造,了更多空间饱读吹模子探索新决策

Token 级亏损 ( Token-level Loss ) ,均衡每个 token 对教师历程的影响。

正例增强 ( Postive Example LM Loss ) ,提高 RL 教师历程中正样本的诓骗效果,从而提高模子举座性能

RL 基础要领

在 Long-CoT 生成历程中,字节团队不雅察到各式教唆词之间的反应长度各异较大,在生成历程中出现精深 GPU 自在时候。

为了缓解长尾反应生成的滞后问题,建议了 SRS(流式 Rollout 系统),一种资源感知型退换框架,可计谋性地部署孤苦的流式计较单位,将系统拘谨从内存绑定调动为计较绑定。

为了有用地大限制教师,团队还盘算推算了一个搀和分散式教师框架,集成高档并行策略、动态使命负载均衡和内存优化:

并行机制:将 TP (张量并行)/EP (人人并行)/CP (高下文并行)与全分片数据并行 (FSDP) 组合在沿路,具体来说,将 TP/CP 应用于留意力层,将 EP 应用于 MoE 层。

序列长度均衡:DP 等第之间的有用序列长度可能造反衡,导致计较使命量造反衡和教师效果低下。诓骗 KARP 算法在一个 mini-batch 内再行摆设输入序列,使它们在 micro-batch 之间保抓均衡。

内存优化:接纳逐层再行计较、激活卸载和优化器卸载来相沿更大 micro-batch 的教师,以袒护 FSDP 引起的通讯支拨。

自动并行:为了已毕最好系统性能,拓荒了 AutoTuner 自动和谐系统,按照基于设立文献的处罚决策 对内存使用情况进行建模。然后推测各式设立的性能和内存使用情况以获取最优设立。

熟女乱伦网

查验点:使用 ByteCheckpoint 相沿从不同的分散式设立中以最小的支拨归附查验点,弹性教师以提高集群效果。

最终,在多项自动评估中,Seed-Thinking-v1.5 在 AIME 2024 基准测试中取得 86.7,与 OpenAI 的 o3-mini-high 模子的性能很是。但在最近的 AIME 2025 和 BeyondAIME 中,Seed-Thinking-v1.5 仍然过期于 o3 级别的性能。

关于 GPQA 任务,Seed-Thinking-v1.5 达到 77.3% 的准确率,接近 o3-mini-high 的性能。

在 Codeforces 等代码生成场景中,Seed-Thinking-v1.5 的性能与 Gemini 2.5 Pro 的性能很是,但仍过期于 o3-mini-high。

Seed-Thinking-v1.5 在 SimpleQA 上的进展不太逸想。但团队以为,该基准测试预教师模子限制的干系性更强,而不是锤真金不怕火推贤人商。

许多东说念主看完这篇时候答复,都很感趣味,不外找了一圈也没找到模子在哪发布。

从时候答复的口径来看,该模子与现在豆包中的 Doubao-1.5 Pro 并不是一趟事。

但从作家名单看,这是由字节 Seed 团队崇拜东说念主吴永辉带队,主要成员都参与的大技俩。

那么是否翌日会部署到豆包 APP,不错期待一波了。

论文地址:

https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

一键三连「点赞」「转发」「小心心」

宽饶在指摘区留住你的主意!

—  完  —

不到一周!中国 AIGC 产业峰会不雅众正在火热报名中  � � ‍♀️

全部嘉宾已就位  � �   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 范畴创变者将皆聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~

4 月 16 日周三,就在北京,沿路来深度求索 AI 若何用  � �  

� � 一键星标 � �

科技前沿进展逐日见telegram 萝莉