• 肛交颜射 英伟达含量为零!华为密集模子性能并列DeepSeek-R1,纯昇腾集群西宾

  • 发布日期:2025-07-06 23:51    点击次数:151

    肛交颜射 英伟达含量为零!华为密集模子性能并列DeepSeek-R1,纯昇腾集群西宾

    密集模子的推理才智也能和 DeepSeek-R1 掰手腕了?肛交颜射

    华为欺骗纯昇腾集群西宾出的盘古 Ultra,在数学竞赛、编程等推理任务当中,和 R1 打得有来有回。

    谬误是模子参数目惟有 135B,悉数西宾过程零英伟达含量,而且莫得出现蚀本尖峰。

    通过校阅的模子架构和系统优化计策,盘古 Ultra 领有优异的性能推崇和 52% 以上的算力欺骗率。

    而且有网友示意,西宾过程中莫得出现蚀本尖峰这一特征,似乎此前从未已矣。

    135B 密集模子并列 DeepSeek-R1

    看成一个参数目 135B 密集模子,盘古 Ultra 达到了同圭臬密集模子的最优推崇,以致不错与 DeepSeek-R1 等参数目更大的 MoE 模子竞争。

    在预西宾阶段模子的评测中,盘古 Ultra 在绝大部分英文基准任务和全部汉文任务上获得了最好性能,优于 Llama 405B、DeepSeek-V3 等 baseline 模子。

    尤其在 MMLU、TriviaQA、GSM8K 等具有挑战性的数据集上,盘古 Ultra 展现出了不凡的言语相识和推理才智。

    经过提醒调优后,盘古 Ultra 的性能进一步进步,尤其在 AIME 2024、MATH-500 等数学推理任务和 LiveCodeBench 等编程竞赛题上达到了 SOTA 水平。

    概述来看,盘古 Ultra 超过了包括 GPT-4o、Mistral-Large 2 等广泛模子,与 DeepSeek-R1 等 MoE 模子竞争强烈。

    好大夫在线

    同期,盘古 Ultra 在 Arena Hard、MMLU-pro 等涵盖通用言语相识和推理的评测中也推崇优异。

    那么,为了已矣这么的后果,盘古 Ultra 招揽了哪些谬误期间呢?

    "三明治"层归一化架构

    如前文所述,盘古 Ultra 是一款 135B 参数目的密集模子,使用了 94 层的收聚会构。

    盘古 Ultra 招揽了分组查询审视力(GQA)机制,包含 96 个查询头(query head)和 8 个键值头(key-value head)。

    为了处治西宾超深收集濒临的不踏实性和拘谨贫苦等问题,盘古 Ultra 在模子架构上作念出了两个谬误校阅——深度缩放的 Sandwich-Norm 层归一化和 TinyInit 参数启动化计策。

    传统的 Transformer 经常使用 Pre-LN 层归一化,但在深度模子中,Pre-LN 容易导致每个子层输出圭臬的波动,激发西宾不踏实。

    盘古 Ultra 使用的 Sandwich-Norm 层归一化,则是在残差连气儿前对每个子层的输出作念归一化,并凭证收集深度对启动化值进行缩放,从而有用排斥了西宾过程中的 loss 尖峰,使西宾过程愈加平定。

    用更容易相识的话说,传统方法仅在每个子层的输入进行归一化,但这种方法针对输出也进行了归一化,酿成了 Pre-Norm + 子层 + Post-Norm 的"三明治"结构。

    然则,只是使用 Sandwich-Norm 还不及以充足排斥深度模子西宾中的不踏实性——跟着收集层数的加多,每一层的输出圭臬仍然可能出现蕴蓄性的漂移。

    为此,盘古 Ultra 在 Sandwich-Norm 的基础上,进一步引入了深度缩放机制,对 Post-Norm 中的放缩参数 γ 进行了深度筹商的启动化。

    至于悉数模子的启动化,传统的启动化经常招揽的 Xavier 启动化方法仅琢磨模子宽度,而盘古 Ultra 招揽的 TinyInit 同期依据模子深度和宽度来缩放启动化权重的按序差。

    这种启动化形态有助于在前向传播和反向传播过程中,守护各层梯度的方差在一个合理的范围内,幸免了梯度隐没或爆炸问题,使得西宾过程愈加踏实,同期也加快了拘谨。

    履行标明,快播情色TinyInit 在深度模子西宾中获得了更好的拘谨速率和下贱任务性能;同期针对 embedding 层,保握权重的按序差接近 1 也能进步西宾踏实性。

    另外,盘古团队也针对 Tokenizer 进行了优化,通过在通用中英文、代码、数学等不同范畴永诀进行词频统计,再归拢去重,最终得到了一个兼顾范畴遮蔽和编码着力的 153376 个 token 的均衡词表。

    8192 张昇腾 NPU 西宾集群

    盘古 Ultra 的悉数西宾进程主要分为三个阶段——预西宾、长高下文推广和提醒调优。

    其中预西宾又不错分为三个子阶段:

    通用阶段:侧重建立言语相识和常识储备,使用了普遍中英文通用语料,遮蔽网页、书本、百科等多个起头;

    推理阶段:引入更多高质料的数学和代码数据,以增强模子的推理才智。同期还使用 instruction 数据来匡助模子学习推论任务;

    退火阶段:匡助模子巩固常识和推理才智,并强化提醒遵命才智。普遍使用问答对和东说念主类响应数据。

    筹商者们招揽了基于法例和模子的数据清洗方法,并盘算了 curriculum learning 计策,让模子循序渐进地学习不同难度的样本。

    预西宾中使用了 AdamW 优化器,并动态转机超参数。

    预西宾后,模子在最长 128K 的长高下文数据上进一步西宾,通过扩大 RoPE 的基频来已矣长序列建模,以增强处理长文档的才智。

    终末的提醒调优阶则段使用监督微调(SFT)和强化学习(RL)来使模子更好地稳当下贱任务,学会推论提醒并与东说念主类偏好对皆。

    西宾谬误方面,盘古 Ultra 使用了一个由 8192 个昇腾 AI 处理器构成的大范围规画集群。

    集群中每个节点包含 8 个 NPU,通过华为高速缓存一致性互联 HCCS 以全互联的拓扑结构连气儿,每个 NPU 配备 64GB 内存,节点间则通过 200Gbps 的 RoCE(RDMA over Converged Ethernet)收集互联。

    为了已矣盘古 Ultra 的高效西宾,筹商团队还招揽了一套系统的并行计策和优化期间。

    在并行计策的聘用上,盘古 Ultra 概述琢磨了模子的范围、数据的特质以及硬件的拓扑,最终招揽了数据并行、张量并行、序列并行和活水线并行等多种并行形态的组合:

    128 路数据并行,将西宾数据分片到不同开发,保证了数据蒙眬;

    8 路张量并行,欺骗开发里面高带宽切分层内张量,已矣高效通讯;

    序列并行用于处理超长序列以镌汰显存压力;

    8 段活水线并行,将不同层漫步到不同开发,酿成高效的规画活水线。

    在并行计策的基础上,盘古 Ultra 还从多个角度对西宾系统进行了深度优化。

    一方面,通过使用 ZeRO(Zero Redundancy Optimizer)漫步式优化器,将模子情状分片到不同开发,大幅镌汰了单个开发的内存占用,在提高数据并行度的同期,确保了每个开发的内存职守在可接受范围内。

    另一方面,筹商者们通过各式通讯和规画优化期间,最小化了通讯支出,进步了规画着力:

    通过算子交融(Kernel Fusion)将多个小算子归拢,减少了内存看望和 kernel 启动;

    通过通讯规画类似(Communication-Computation Overlapping)已矣通讯和规画的深度交汇,荫藏通讯蔓延;

    MC^2(Merged Computation & Communication)和 BOA(Batch Optimization Accelerator)永诀对张量并行和程序化层的通讯进行了专诚优化……

    在算法、工程、数据各个层面的详细优化下,盘古 Ultra 已矣了 52% 以上的算力欺骗率。

    期间阐明:

    https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

    一键三连「点赞」「转发」「留神心」

    迎接在指摘区留住你的念念法!

    —  完  —

    不到一周!中国 AIGC 产业峰会不雅众正在火热报名中  � � ‍♀️

    全部嘉宾已就位  � �   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 范畴创变者将皆聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~

    4 月 16 日周三,就在北京,一齐来深度求索 AI 奈何用  � �  

    � � 一键星标 � �

    科技前沿进展逐日见肛交颜射