Re: [心得] DS對晶片產業的影響
看板Stock (股票)作者neo5277 (I am an agent of chaos)時間1天前 (2025/01/29 01:23)推噓6(6推 0噓 6→)留言12則, 9人參與討論串5/6 (看更多)
先恭祝大家新年快樂,嘶嘶如意~~~
結論說在前頭
對硬體商尤其是Nvidia,短空長多。
對GG沒啥影響,硬體該用還是用。
某些有能力的代工廠,特別是做工業電腦的,有共同設計經驗的。
有機會吃到。
簡單有力一點可以說 這是AI的 IPHONE時刻
接下來就是發現誰是這個時代的 鴻海跟蘋概股
首先N不是只有顯卡跟伺服顯卡,DS最主要是提供一個更有趣的軟體架構。
他老東家是做AI投資的,對於把算力榨乾,(單一運算分散到算力叢集上的每個點
再回來,調教通訊,跟這種模型並行跟資料並行的它們玩的應該是滿熟練的
還有自己的演算法,基本上這就是有限利用算力的方法。)
某方便來說也算是被逼出來的軟體解,而且這種解法相當符合亞洲填鴨式教育精神。
對N來說,新的軟體架構,會讓他的算力可以有更大的發展,DIGITS如果運作良好
只要四台使用R1 的架構,針對資料做有意義的調整,一間中小型企業,或是稍微敢
花一點有技術能力的自然人就可以擁有一個 自己的地端AI,DIGITS還是可以堆疊的
一台不過定價台幣十萬,還有Jetson,軟體架構進化,跟優化,如果hugging face 上
openR1 專案又驗證順利的話,未來就是百花齊放,跟楊立昆說的一樣,這是開源的
勝利。 我自己本來的預想是 3-5年內 機器人社會會來臨。
現在,應該是三到五年內,稍微有點技術的人都可以做一個自己的賈維斯
而這些又會更加速,機器人,跟AI 還有VR的發展。 科技就是單點突破最可怕
突破以後,各種技術的疊加,加速會沒有辦法估算。
很多人只會想投資,跟地緣政治,但是其實站在人類歷史來看,這次的發展是很有趣的
也很好玩的一點是,這真的是因為民族性不同,所以歐美完全不會這樣思考。
這真的是亞洲的玩法XD
我自己覺得不用擔心算力過剩,這個軟體訓練架構不是只有LLM能用
只是LLM是目前最吸睛(金,各大廠商也最期待變現的,跟替自己臉上貼金(拉高估值
跟股價的原因,但今天DS就像是,超級賽亞人跳樓大拍賣。
所以,才會有急殺,因為你花600,2000訂gpt,我在local 本地端使用模型效果差不多
但是我只需要買兩張或是四張4090,或是50系列,甚至我花一百萬買十台DIGITS
串聯,然後從huggingface 上下載R1架構,用自己整理的資料集來微調或是
租卡訓練更別說,應該沒多久就會有各大廠商,推出自己的基於R1架構模型。
想想就興奮,現在關鍵點在於,針對既有資料數據集的優化,他做了哪些具體的事情
,還有他使用模型產出的有效回答數據有哪些特殊點。
搞定這兩塊,加上,進入MOE前的有效路由建立,跟基於資料還有模型的叢集分散式運算
算法流變掌握。 AI自由不是難事,當賽道大轉彎的時候,可以說是AI從server 端
轉向PC端的時刻,這時候你還會覺得N家跟GG會GG嗎? 那時候是一個真AIPC年代。
只是堆疊大數據算力中心的會吃虧而已,短期我覺得大家會不再競爭跟狂買。
但是會開始深化,跟縮小,加速軟體架構迭代。
底下比較偏技術,可以不看。
有別於歐美一堆AI模型是從零,訓練到有,DS要白話一點類比的話就是,先拿
別人訓練好的開源武功秘笈,針對這些資料及做特化的批註,精煉一批更準確的
資料,(參考書),然後透過MOE,把大模型拆出很多分門別類地專攻模型,然後開始
不停地自己做模擬考,也使用知識蒸餾,去濃縮跟自我訓練解題,經過精練的考前題庫
模擬考,讓他在回答問題的時候更得心應手,而且他的思維鍊的步驟也經過標記。
一般LLM是接龍這個大家應該都知道了,transfermer 多頭注意力,就專門在處理這個。
DS做法是,他把可能的接下去的詞語都先預設起來,他在處理的時候就可以不用全載入
記憶體跟從頭來過,多頭潛在注意力,還有針對問題,丟給適合的MODEL去解。
加上他有針對性的優化不是每次都是用FP32精度下去做,可見
它們真的走土炮路線而且有能力做了不少次優化,選擇最有效的去運用它們手上有的算力
這一堆架構設計微調,其實都不是太難,比較難地的是思路,當你是算力富翁的時候
你不會想要做這些事情,因為這要反覆折磨自己,但是當你只有有限的資源,你就會去
想各種奇技淫巧,這點真的是很亞洲,有種熟悉感XD
川普說得很好,給美國的AI圈一記當頭棒喝。
這個模式成功,大型AI數據中心就會慢慢成為過去,不再那麼重要,本地化個人化
將會來臨,對軟體來說有硬底子技術的人才,會更搶手,專注做ETL的資料工程師
會崛起,對硬體來說,DIGITS,jetson算是領先,有集成式,可以做得又快又好的
OEM,JDM,EMS 會大大地好。
你不能說他不厲害,他很有趣。
然後對於言論審查,我只能說今天這個軟體架構的思路大於他模型本身跟公司的價值
孔雀開屏的時候不要被教育成只看他的屁眼,而忘記她美麗的羽翼。
p.s.我自己是用一張 4070ti 跑14b 會比線上gpt快,我問她我一般工作
回應良好,我是軟體工程師。我很期待其他間用這個思路下去改造它們自己的開源模型
--
WHY SO SERIOUS???
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.113.179 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738084990.A.310.html
※ 編輯: neo5277 (111.243.113.179 臺灣), 01/29/2025 01:24:07
※ 編輯: neo5277 (111.243.113.179 臺灣), 01/29/2025 01:25:36
※ 編輯: neo5277 (111.243.113.179 臺灣), 01/29/2025 01:28:18
※ 編輯: neo5277 (111.243.113.179 臺灣), 01/29/2025 01:39:57
推
01/29 02:03,
1天前
, 1F
01/29 02:03, 1F
→
01/29 02:03,
1天前
, 2F
01/29 02:03, 2F
有阿我有講那些可能會好喔
※ 編輯: neo5277 (111.243.113.179 臺灣), 01/29/2025 02:11:12
→
01/29 02:34,
1天前
, 3F
01/29 02:34, 3F
→
01/29 02:34,
1天前
, 4F
01/29 02:34, 4F
推
01/29 05:41,
1天前
, 5F
01/29 05:41, 5F
推
01/29 06:36,
1天前
, 6F
01/29 06:36, 6F
推
01/29 06:55,
1天前
, 7F
01/29 06:55, 7F
→
01/29 06:56,
1天前
, 8F
01/29 06:56, 8F
→
01/29 07:44,
1天前
, 9F
01/29 07:44, 9F
推
01/29 09:46,
1天前
, 10F
01/29 09:46, 10F
推
01/29 13:20,
23小時前
, 11F
01/29 13:20, 11F
→
01/29 15:03,
22小時前
, 12F
01/29 15:03, 12F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章