• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    業(yè)界 正文
    發(fā)私信給梁丙鑒
    發(fā)送

    0

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破

    本文作者: 梁丙鑒   2026-04-24 19:01
    導語:包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數(shù)、英偉達(FP8)等。

    雷峰網(wǎng)訊 DeepSeek今日發(fā)布了DeepSeek-V4-Pro 1.6T 旗艦模型(1.86萬億參數(shù))及DeepSeek-V4-Flash 284B 高效模型(2840億)。由智源研究院牽頭研發(fā)的眾智FlagOS第一時間對兩個“巨無霸”模型進行全量適配,已經(jīng)完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數(shù)、英偉達(FP8)等芯片。FlagOS 同時正在推進 DeepSeek-V4-Pro 模型在多個芯片的遷移適配,后續(xù)即將開源。

    首先完成在八款芯片適配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列兩大模型之一,采用混合專家(MoE)架構(gòu),總參數(shù)量 284B,激活參數(shù)僅 13B,支持 100 萬 token上下文長度。該模型在架構(gòu)上引入了混合注意力機制(結(jié)合壓縮稀疏注意力CSA與高度壓縮注意力HCA,大幅提升長上下文效率)、流形約束超連接(mHC,增強跨層 信號傳播穩(wěn)定性)以及 Muon優(yōu)化器(加速收斂、提升訓練穩(wěn)定性)。預訓練數(shù)據(jù)超過32Ttoken,后訓練采用兩階段范式——先通過 SFT和GRPO強化學習獨立培養(yǎng)領(lǐng)域?qū)<遥偻ㄟ^在線策略蒸餾將多領(lǐng)域能力統(tǒng)一整合到單一模型中。在最大推理力度模式(Flash-Max)下,給予更大思考預算使其推理能力可接近Pro版本水平;受限于參數(shù)規(guī)模,在純知識類任務和最復雜的Agent工作流上略遜于 Pro。 整體性能參考如下官方評測結(jié)果:

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破

    圍繞DeepSeek-V4-Flash多芯適配,此次FlagOS系統(tǒng)軟件技術(shù)棧突破了三大關(guān)鍵技術(shù):FlagGems全算子替代(實現(xiàn)多芯片統(tǒng)一適配)、為o-group采用獨立張量并行策略解鎖更多低顯存場景、以及“FP4+FP8混合精度”的原生權(quán)重到 FP8/BF16 的精度路徑轉(zhuǎn)換。當下國內(nèi)出貨的AI芯片,都沒有FP4的支持。英偉達也只有在Blackwell及之后的高端芯片才支持FP4。這三項關(guān)鍵技術(shù),使得DeepSeekV4能夠在當前各種廠商的主流AI芯片上穩(wěn)定運行,而非僅限于支持 FP4 和大顯存的少數(shù)高端AI加速卡。

     

    三大技術(shù)突破:為什么對支持多種AI芯片十分重要

     

    突破一:FlagGems 提供支持8種以上芯片的全算子替代——真正意義上的跨芯方案

    本次 DeepSeek-V4-Flash 的適配,F(xiàn)lagGems 實現(xiàn)了模型推理鏈路中全部算子的替代。這意味著什么?

    徹底脫離 CUDA 算子依賴:DeepSeek-V4-Flash的 MoE 專家調(diào)度、Attention 計算、RMSNorm、TopK 路由等全部核心計算模塊,均由 FlagGems 基于 Triton/Triton-TLE語言重新實現(xiàn),不調(diào)用任何 cuDNN/cuBLAS 等NVIDIA私有庫。

    無需芯片廠商逐一適配:傳統(tǒng)模式下,每款新模型上線,芯片廠商需要投入工程團隊做算子適配。現(xiàn)在通過FlagGems+FlagTree編譯器的組合,新模型的算子可以直接編譯到多款芯片后端,芯片廠商不需要做任何額外工作。

    新算子即時可用:DeepSeek-V4-Flash引入的新計算模式(如 o-group 相關(guān)的分組路由機制),F(xiàn)lagGems 已經(jīng)實現(xiàn)了對應的新算子,并通過 FlagTree 編譯器統(tǒng)一編譯到所有支持的芯片后端。

    FlagGems 作為全球最大的 Triton 單一算子庫,已擁有超過400 個大模型常用算子,并已正式進入 PyTorch 基金會生態(tài)合作項目。在 40 個主流模型上,推理任務算子覆蓋度達到 90%~100%,完整支持 DeepSeek-V4-Flash的全部計算需求。


    突破二:為o-group采用獨立并行策略——解除張量并行最多單機8卡限制

    DeepSeek-V4-Flash為了進一步降低計算開銷采用了分組輸出投影技術(shù)(Grouped Output Projection),配置為o-group=8,這導致在傳統(tǒng)的張量并行時候,最多切8份。而當前一些主流國產(chǎn)芯片的單卡顯存為 32GB 或 64GB,尤其在BF16格式情況下,需要張量并行大于8份才能放的下。為了解除這個限制,F(xiàn)lagOS專門針對o-groups進行了單獨張量并行策略設計和實現(xiàn),確保o-groups切分不超過8份的前提下,能夠讓模型其他部分還采用經(jīng)典的張量并行策略,并且實現(xiàn)超過8份的切分。通過不同的張量并行策略組合,能夠?qū)崿F(xiàn)多于8臺設備的張量并行運行。

     

    FlagOS 團隊對o-group張量并行改動有:

    獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構(gòu)建所需要的張量并行通信組,確保其他模型結(jié)構(gòu)張量并行切分超過8的情況下,o-group的張量并行在8以內(nèi)。

    參數(shù)轉(zhuǎn)換調(diào)整:對o-group相關(guān)的參數(shù),也進行了對應單獨的張量并行切分處理,以確保在新的獨立張量并行策略下,也能夠被正確加載。

    覆蓋面擴展:這一優(yōu)化能夠?qū)?DeepSeek-V4-Flash在單獨采用張量并行策略下,將可運行芯片范圍從"僅限單機80GB以上顯存的個別高端卡"擴展到"多機64GB/32GB的更多主流國產(chǎn)芯片",包括海光、沐曦、天數(shù)智芯等廠商的主力產(chǎn)品線。

    突破三:從“FP4+FP8混合精度” 到 BF16的精度轉(zhuǎn)換——打通主流芯片的計算路徑

    DeepSeek-V4-Flash模型發(fā)布時首次采用 FP4+FP8混合精度,該精度只有在Blackwell及之后的英偉達最新硬件上才有支持,但當前所有國內(nèi)非英偉達 AI 芯片都未能支持,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

    FlagOS 完成了從 FP4 到 BF16 的完整精度轉(zhuǎn)換:

    權(quán)重反量化:將 FP4 量化權(quán)重轉(zhuǎn)換為 BF16 格式。這不是簡單的類型轉(zhuǎn)換,而是需要根據(jù) DeepSeek 的量化方案進行逆量化計算,確保數(shù)值精度。

    計算路徑重建:FP4 和 BF16 在底層計算上有本質(zhì)差異——FP4 的動態(tài)范圍更窄,累加精度、溢出處理策略均不同。FlagOS 對推理鏈路中的 GEMM、Attention、MoE 路由等關(guān)鍵計算節(jié)點逐一適配了 BF16 路徑。

    精度對齊驗證:經(jīng)過標準評測集驗證,BF16 版本與 FP4 原生版本在核心能力指標上保持對齊,確保精度轉(zhuǎn)換不引入業(yè)務層面的效果損失。

    本次,F(xiàn)lagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是"只有最新 NVIDIA 卡才能跑"的模型,而是真正可以部署在 FP8 及 BF16 生態(tài)的主流國產(chǎn)芯片上。

     

    FlagGems開源高性能新算子 全面支持 DeepSeek-V4-Flash

    本次新發(fā)布的DeepSeek-V4-Flash共有大約67個算子,F(xiàn)lagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個新算子,實現(xiàn)了對DeepSeek-V4-Flash的全面支持,也為跨芯適配打下重要基礎。

    FlagGems 支持 DeepSeek-V4-Flash 新算子的性能對比

    為了支持更多AI芯片的使用,F(xiàn)lagOS對DeepSeek-V4-Flash中使用的新算子使用Triton語言進行重新實現(xiàn),基于FlagTree統(tǒng)一編譯器,性能全部超過原生性能。

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破

    C++ Wrapper技術(shù)是FlagOS技術(shù)社區(qū)專門為提升基于Triton語言的算子內(nèi)核調(diào)用效率而打造的技術(shù)。目前已經(jīng)支持了該技術(shù)的芯片包括華為昇騰、寒武紀、摩爾線程、平頭哥真武、及英偉達等。使用了C++ Wrapper技術(shù),在普通的Transformers框架下,可以顯著提升使用了Triton算子的模型的端到端效率,實現(xiàn)跨芯普適、和高效推理的雙重目標。通過端到端效果評測(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快11%,比 Python Wrapper 版快 39%。

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破

    開發(fā)者極致體驗:"發(fā)布即多芯" + "極簡部署"

    1. 核心能力與原生版本對齊

    經(jīng) GPQA_Diamond、AIME等權(quán)威評測集驗證,F(xiàn)lagOS 適配后的 DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數(shù)學計算等核心能力上,與 CUDA 原生版本對齊,可放心應用于金融、教育、政企服務、代碼開發(fā)等場景,無需擔心適配導致業(yè)務效果折損。

    評測數(shù)據(jù):

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破


    注:本測試結(jié)果僅用于對遷移前(Nvidia-Origin)和遷移后(-FlagOS)版本的互相對齊驗證,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布數(shù)據(jù)為準。

     

    2. 極簡部署:開箱即用,底層優(yōu)化無感知

    FlagOS 將核心算子庫、編譯器等技術(shù)組件前置內(nèi)置到 DeepSeek-V4-Flash代碼框架中,開發(fā)者加載模型時,底層優(yōu)化代碼自動生效,無需手動添加任何 FlagOS 初始化代碼。同時,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,標準化 Docker 鏡像 + 一鍵加速命令,解決了開發(fā)者最頭疼的環(huán)境配置、效果對齊、性能優(yōu)化等問題。

    FlagOS 2.0 技術(shù)底座:從大模型到智能體時代的全棧升級

    DeepSeek-V4-Flash的三重突破,依托的是 FlagOS 2.0 統(tǒng)一多芯片系統(tǒng)軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層,全鏈路為大模型跨芯適配提供技術(shù)支撐,將原本數(shù)周的適配周期縮短至數(shù)天,真正實現(xiàn)極速落地。

    智源:FlagOS完成DeepSeekV4八款芯片Day0 適配,實現(xiàn)三重技術(shù)突破

    FlagOS:面向多種 AI 芯片的系統(tǒng)軟件棧

    1. 高性能算子庫 FlagGems:核心算子深度適配,釋放硬件算力

    FlagGems 作為 FlagOS 核心的高性能通用大模型算子庫,基于 Triton 語言實現(xiàn),針對 DeepSeek-V4-Flash推理鏈路的核心算子進行了深度適配與優(yōu)化,包括 MoE 專家調(diào)度、Attention 計算、RMSNorm 等關(guān)鍵計算模塊,同時原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數(shù)等接近 20 家 AI 芯片。

    2. 統(tǒng)一 AI 編譯器 FlagTree:一次編寫,多芯編譯

    FlagTree 是 FlagOS 面向多 AI 芯片后端的統(tǒng)一編譯器,基于 Triton 深度定制,可將 DeepSeek-V4-Flash的核心算子編譯為英偉達、摩爾線程等十多種不同 AI 芯片后端可識別的指令,徹底解決不同芯片編譯器生態(tài)割裂的問題,大幅降低算子跨芯片適配的開發(fā)成本。

     

    3. 模型跨芯遷移發(fā)布工具 FlagRelease:半自動實現(xiàn)模型跨芯遷移與版本發(fā)布

    依托 FlagOS 全棧技術(shù)能力,F(xiàn)lagRelease 已完成 DeepSeek-V4-Flash在多種芯片上的模型遷移、精度對齊與版本發(fā)布,覆蓋 HuggingFace、魔搭等開源社區(qū)平臺。開發(fā)者可直接下載使用,無需自行遷移。截至本文發(fā)布,F(xiàn)lagRelease 已發(fā)布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個開源模型實例的跨芯適配版本。

    4. 統(tǒng)一多芯片接入插件 vLLM-plugin-FL:無縫兼容原生使用習慣

    vLLM-plugin-FL是 FlagOS 為 vLLM 推理服務框架打造的專屬插件,基于 FlagOS 統(tǒng)一多芯片后端開發(fā),在完全不改變 vLLM 原生接口與用戶使用習慣的前提下,實現(xiàn)多芯片推理部署。目前 vLLM-plugin-FL 已經(jīng)支持了英偉達、摩爾線程、海光、沐曦、平頭哥真武、天數(shù)智芯、昆侖芯、華為等多家芯片。

    開源共建:FlagOS持續(xù)做開發(fā)者的“跨芯適配后盾”

    當下,"異構(gòu)算力協(xié)同、大模型普惠落地"已成為全球開源開發(fā)者社區(qū)的核心熱點,打破硬件生態(tài)隔離、讓大模型在不同算力平臺高效低成本運行,是無數(shù)開發(fā)者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術(shù)基因,始終以開發(fā)者為中心,通過全棧開源的統(tǒng)一系統(tǒng)軟件棧,把復雜的"M×N"硬件適配問題降維為"M+N",做每一位開發(fā)者最可靠的跨芯適配后盾。

     

    目前,F(xiàn)lagOS 已形成完整的開源技術(shù)體系,所有核心組件均已開源在 GitHub,同時開放了數(shù)十款最新的主流基礎大模型、十多款 AI 芯片的適配方案與最佳實踐,開發(fā)者可自由獲取、深度定制:

    四大核心技術(shù)庫: FlagGems 通用大模型算子庫、FlagTree 統(tǒng)一 AI 編譯器、FlagScale 訓練推理并行框架、FlagCX 統(tǒng)一通信庫,覆蓋算子開發(fā)、編譯優(yōu)化、并行計算、跨芯片通信全鏈路;

    三大開源工具平臺: FlagRelease 大模型自動遷移發(fā)版平臺、KernelGen 算子自動生成工具、FlagPerf 多芯片評測工具,提供從模型適配、性能評測到工程落地的一站式工具鏈;

    全場景擴展生態(tài): vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強組件,以及 FlagOS-Robo 具身智能工具包,覆蓋大模型訓練、推理、應用全場景。

    雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章

    分享:
    相關(guān)文章
    最新文章
    請?zhí)顚懮暾埲速Y料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 狠狠噜天天噜日日噜| 2025AV在线| 美日av| 久久大香伊蕉在人线观看热2| 一卡二卡三卡四卡视频区| 91成人社区| 最新中文字幕av无码专区| 国产尤物视频| 无码中文av波多野结衣一区| 国产精品成人中文字幕| 亚洲国产日韩a在线播放| 国产激情内射在线影院| 亚欧美闷骚院| 丁香五月亚洲综合深深爱| 国产免费丝袜调教视频| 亚洲不卡免费在线视频| 欧美人妻中文| 久久这里只精品国产2| 国产成人自拍视频播放| 三级黄片一区二区三区| 国产欧美日韩综合久久| 国产精品成人久久电影| 成人无码小说| 精品色综合| 日韩亚洲人成在线综合日本| 亚洲精品一区二区三区在线观看| 亚洲无人区一码二码三码| 午夜无码剧场| 国产精品亚洲一区二区毛片| 国产精品无码久久久一区蜜臀 | 亚洲va中文字幕欧美不卡| 67194欧洲| 亚洲色大成网站www看下面| 亚洲v欧美| 99免费精品| 国产1区2区三区不卡| 免费观看全黄做爰大片国产| 一出一进一爽一粗一大视频| av狼友| 无码人妻精品一区| 久久人人97超碰国产公开|