[新聞] 字節跳動旗下「豆包」新模型架構 推理成本最多降83%

看板Stock (股票)作者 (乙醯胺酚)時間5小時前 (2025/02/12 23:49), 編輯推噓11(11011)
留言22則, 14人參與, 2小時前最新討論串1/1
原文標題: 字節跳動旗下「豆包」新模型架構 推理成本最多降83% ※請勿刪減原文標題 原文連結: https://udn.com/news/story/7333/8543703 ※網址超過一行過長請用縮網址工具 發布時間: 2025-02-12 15:17 ※請以原文網頁/報紙之發布時間為準 記者署名: 林宸誼 ※原文無記載者得留空 原文內容: 字節跳動旗下「豆包大模型」Foundation團隊,近期提出一種全新的稀疏模型架構「UltraM em」,該架構在保證模型效果的前提下,推理速度較傳統的MoE(專家混合模型)架構提升2 到6倍,推理成本最高可降低83%。 陸媒財聯社報導,這項創新成果已被機器學習和AI領域的頂級會議ICLR 2025接收,為解決 大模型推理效率和擴展能力問題提供了全新思路。 大模型的推理能力,對應的是端側AI應用/工具的回應能力和速度。隨著模型規模的擴大, 推理成本和訪存效率已成為限制大模型規模應用的關鍵瓶頸。 在Transformer架構下,模型的性能與參數數量和計算複雜度呈對數關係。隨著LLM規模不斷 增大,推理成本會急劇增加,速度變慢。 為了解決計算問題,先前的研究者提出MoE和PKM(Product Key Memory)方案,但都有各自 侷限性。包括MoE架構犧牲了效率、PKM架構犧牲了效果,這些侷限性使得MoE和PKM在推理效 率、模型效果和擴展能力等方面的優化空間仍需進一步探索,UltraMem正是為了解決上述缺 點。 UltraMem參考了PKM的設計,但針對PKM的缺陷予以補充,優勢主要在於降低推理成本、提升 推理速度、保持模型效果。 豆包研究團隊在151M、680M、1.6B三個不同規模的模型上進行了廣泛的實驗。實驗結果顯示 ,UltraMem在模型效果和推理速度方面均優於MoE和PKM架構,且在680M、1.6B上具有顯著的 效果優勢。 報導提到,無論是訓練端還是推理端,當大模型廠商「捲」起成本,代表AI應用將在未來更 加高效易用;當推理成本大幅降低,將助推AI技術在更多領域的應用成為可能,尤其是對於 資源受限的場景,如邊緣計算和移動設備等,能讓更多企業和開發者有能力使用和部署AI模 型。 心得/評論: 美國矽谷科技公司在卷誰能拿到更多晶片 中國科技公司則是在卷誰能把AI成本降得更低 ※必需填寫滿30正體中文字,無意義者板規處分 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.143.192 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1739375374.A.361.html

02/12 23:51, 5小時前 , 1F
台灣在捲一次能夠點幾碗麵線
02/12 23:51, 1F

02/12 23:52, 5小時前 , 2F
感覺快回到畝產萬斤的年代了
02/12 23:52, 2F

02/12 23:53, 5小時前 , 3F
最先進的晶片已經不會進中國了,自己慢慢卷吧
02/12 23:53, 3F

02/12 23:54, 5小時前 , 4F
02/12 23:54, 4F

02/13 00:00, 5小時前 , 5F
軟體寫得跟屎一樣..硬體堆料很快就會出現瓶頸
02/13 00:00, 5F

02/13 00:00, 5小時前 , 6F
軟硬體要同時進化..缺一邊都會變成拖油瓶
02/13 00:00, 6F

02/13 00:03, 5小時前 , 7F
靠高效率軟體挑戰OpenAI的只會越來越多
02/13 00:03, 7F

02/13 00:05, 5小時前 , 8F
當OpenAI把一堆職缺搬到印度..就註定只會是一代拳王
02/13 00:05, 8F

02/13 00:13, 5小時前 , 9F
可以當豆沙包吃嗎
02/13 00:13, 9F

02/13 00:19, 5小時前 , 10F
單看新聞內文看起來實驗只有做在 1B 這個量級的小
02/13 00:19, 10F

02/13 00:19, 5小時前 , 11F
model 上,也要看能不能 scale up 才算真的爆炸性突
02/13 00:19, 11F

02/13 00:19, 5小時前 , 12F
破吧
02/13 00:19, 12F

02/13 00:19, 5小時前 , 13F
覺得算力大力出奇蹟的機會比較大 可是預算有限
02/13 00:19, 13F

02/13 00:38, 4小時前 , 14F
有錢狂掃鏟子的也只有少數幾家..還不如從軟體下手
02/13 00:38, 14F

02/13 00:52, 4小時前 , 15F
字節跳動不是去年被實習生惡搞,導致模型被破壞嗎
02/13 00:52, 15F

02/13 01:02, 4小時前 , 16F
難怪東方武藝會沒落! 西方鏟子進步到挖土機,東方還
02/13 01:02, 16F

02/13 01:03, 4小時前 , 17F
在鑽研怎麼鏟最省力。 要不要順便練內功運個氣?
02/13 01:03, 17F

02/13 01:05, 4小時前 , 18F
軟體再快,也不可能快過硬體。一個是加法一個是減法
02/13 01:05, 18F

02/13 02:10, 3小時前 , 19F
吃麵線錯了嗎。 perplexity 好用啦 讚
02/13 02:10, 19F

02/13 02:12, 3小時前 , 20F
演算法寫的好比堆硬體效率高啊
02/13 02:12, 20F

02/13 02:37, 2小時前 , 21F
大家一起吹
02/13 02:37, 21F

02/13 02:50, 2小時前 , 22F
幹片加速生成
02/13 02:50, 22F
文章代碼(AID): #1dhCCEDX (Stock)
文章代碼(AID): #1dhCCEDX (Stock)