Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
Nested Learning 的工程實例是 HOPE ,HOPE有分快系統跟慢系統兩部分
快系統應用Titan model
慢系統應用了CMS(連續體記憶系統)
現成硬體來說,最適合跑整個HOPE的是GPU,雖然也很勉強,NL流行後,
GPU會針對這個改版
不過單獨CMS的部分,跟現有的LLM是相容的,model架構不變,可以拿訓練好
的權重接套用CMS
即使如此,谷歌應該也沒很大的動機現在就把CMS套用到Gemini3上
※ 引述《curiserosi ()》之銘言:
: 小弟不才,關於技術的部份看不懂
: 但還是想請教
: 1.現有transfomer架構因為需要死背硬記,所以需要超大規模記憶體
: 來對應長文本、圖像,甚至影片,到長影片所需的記憶體規模已經
: 不具備實際可行性或是沒有經濟價值
: 這部分Nested Learning具備絕對優勢,面對長文本、圖像,甚至長影片
: 對記憶體的需求成長可控
: 2.Nested Learning具備持續學習的能力,這點是transformer不具備的
: 基於以上兩點,即使現在還有很多缺點,未來也絕對有Nested Learning
: 的一席之地(因為transformer在這些地方的劣勢是結構性的,無法改變)
: 請問我這理解有沒有哪邊有問題?
: 如果未來Nested Learning大規模佈署,在產業面上的影響
: 1.SRAM的需求會大幅增加,Nested Learning需要的不是大量的HBM來記憶
: 而是需要能快速響應的SRAM來對應CMS
照原PO的說法應該是如此,不過我不認為是這樣
我覺得用量增加最多的應該是DRAM,甚至是其他更慢的記憶體
你可以想,如果每個人的輸入都讓model更新參數,那雲端要保留多少個model?
這些model的參數都用最貴的SRAM?這太不現實了
而且如果更新參數只要針對個別用戶,多速記憶體的響應速度都夠快了,到時需
求的容量才會是關鍵,畢竟要服務太多用戶了
如果只是把CMS套用在現有的LLM上
HBM的需求基本應該維持跟現在差不多
: 2.算力的需求暴增,相比現在的transformer是卡在記憶體數量與頻寬
: Nested Learning因為需要Backward Pass,需要的是數倍的算力
是的,NL 比較適合用GPU跑,但要跑得好,GPU也得針對性的重新設計
: 3.由上面兩點推測,封裝需求也會改變,HBM+GPU的封裝需求成長減緩
: 如CoWoS,相對的interposer、載板也不需要那麼大,所以這些產業
: 成長會放緩
: 我腦容量不夠,這是我想像力的極限了
: 什麼雙曲空間已經超出我認知範圍
: 不過還是想問一下我這樣理解有沒有什麼問題
: 感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.150.246.41 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765651058.A.74F.html
討論串 (同標題文章)
完整討論串 (本文為第 16 之 16 篇):
Stock 近期熱門文章
PTT職涯區 即時熱門文章