Re: [請益] NVDA跟AMD怎麼突然崩了

看板Stock (股票)作者 (星塵遠征君)時間1年前 (2024/03/09 13:52), 1年前編輯推噓43(485116)
留言169則, 47人參與, 1年前最新討論串7/10 (看更多)
本來中午要去吃飯剛好看到這篇,雖然我說的內容可能大部分人也可能不太理解, 但巷子內的看到應該會覺得還是蠻怪的,當然有更多大神指點是更好的 ※ 引述《LDPC (Channel Coding)》之銘言: : 週末有點時間 之前寫的老黃故事 https://disp.cc/ptt/Stock/1aVG4__D : 這幾年AI模型突飛猛進的一個關鍵點就是 泛化的能力 : 簡言之 2018以前 AI模型 都是透過數據 去學習資料上的標註資料 : 來做人類事先規範好的目的 而機器透過這些標注數據 去達到人類要求的事情 : 當模型遇到一個沒看過的數據 或者場景變得不同 模型就會失效 甚至無法處理 : 但在pre-trained model/foundation model出來後 一切都不同了 Pre-trained model的概念從開山祖師爺Alexnet誕生以來就有了 早期AI的爆發起源於李飛飛辦了一場視覺的辨識比賽,但為此比賽就需要資料庫 因此建立了Imagenet,人類第一個大數據影像庫,有一千種類別 當年應該是第二屆吧,Alexnet的橫山出世,靠著與其他人完全不同的架構 壓倒性的準確率獲得了當年冠軍(比前一年冠軍提高了10%左右) 這個架構就是當年類神經模型的延續,也就是俗稱的深度學習Deep Learning架構 因此後來開源了此架構模型跟參數,也就是俗稱的Pre-train model,因此就開起了大 AI時代的序幕,大家蜂擁而上的發展新架構,Fine-tuning新模型 而當時要訓練十幾萬張的照片光用CPU是跑不動的,因此Alex還有一個很大的貢獻是 他手刻調用兩張GPU顯卡進行運算,也是老黃AI王朝的開始 在此技術突破後帶來的就是各種影像上突破,例如人臉辨識、停車場進出、智駕車等 也讓智駕車從空談變成了可能 : 大體而言就是 模型透過某種學習(self-supervised) 機器能從無註記資料學習一定法則 : 而能做到超出原本數據沒有做過的事情 甚至簡單調整 (zero-shot)再不需要重新訓練 : 或者少量訓練(fine-tuning) 機器就能根據落地場景 能達到最佳化結果 : 甚至因為self-supervised關係 許多網路上的野生數據 也不需要人工標註 : 因為機器會在這些大量野生數據 自我學到法則 從而產生推理的效果 : 而這些最大的意義就是 機器能做到超乎原本數據給的標籤效果 理解數據 創造法則 : 這些意味者AGI的那個聖杯 有機會可以摸到邊了 而OpenAI最大的概念就是 : 大力出奇蹟 也就是堆疊數據多樣性(multi-tasking)及 透過龐大算力跟模型 : 而所達到的模型泛化(zero-shot)以及AGI效果更明顯 其實這邊算是一堆概念混在一起使用了,首先zero-shot在現階段是很難訓練的, 通常必須要有一個大模型,才有辦法使用zero-shot,或是few-shot learning 簡單來說就是你無法從零開始,事到如今一定還是必須要有資料 而且是高品質的標記資料,再加上暴力式硬體進行學習,才有機會變大模型 所以我接續上面的故事繼續說後續好了,這樣可能讓一般人也比較能夠看得懂 在影像上取得突破後,是不是就能套用在全部的影像環境的,答案是否定的 因為在影像環境中有各式各樣的難題,例如你是個分類問題還是物件偵測問題等等等 因此首先突破的是分類問題變得更精準,突破的方式就是將類神經網路建構的更深層 ,就出來了例如resnet、inception等架構 後續就解決了辨識更精準,甚至到後來YOLO架構的出現解決了物件偵測的問題 隨著影像上的突破,大家就漸漸地將這些方式導入到其他的領域中,例如訊號、音訊 、文字、控制等 後來出現了GAN的架構,帶給人們另一種啟發的思想,所謂的GAN也可以當作是生成式架 構的發想開創,讓大家知道原來可以讓AI創作出東西,而不是單純地進行識別而已 後續講快一點,在這段年間AI的論文架構基本上是一週小改一個月大改,過了半年就是落 後技術,但隨著google發表了Attention與Transformer後,開始有了異質性結合的可能,也就是現在gpt 的始祖,可以分解文字,可以將文字輸入變成影像輸出等 也就是從此之後AI漸漸地從開源導向了不開源,而且某些程度上是閉鎖的 上一個這樣的領域應該是強化式學習(Reinforcement learning) 在當年OpenAI發表GPT2的時候,就對他巨量的參數量感到吃驚,因為可想而知是背後 有著巨型不開源的資料庫,所以在後續GPT3的成功,也開啟了LLM的朝代 一個AI成為軍備競爭的朝代,你需要有夠多夠高品質準確的資料,加上巨型的模型跟 龐大的顯卡庫,就能越接近AGI,這也是為啥美國拼命禁中國生產晶片進口顯卡,最主要 的目的除了5G手機以外就是避免他們比美國更快發展出AGI 那關於老黃的起飛呢,一開始靠著個人版或是主機板的顯卡吃片天下,再來是靠著挖虛擬 貨幣吃掉了所有消費型顯卡的量,接下來就是奧特曼發現現在的GPU量是源源不足以誕生 出AGI以及能用於落地,所以就造就了現在NV的盛況,大家可以想像原先的資料中心,原本 Server一半以上都要換成GPU(基本級別),如果要導入生成式架構應用,或是未來的AGI, 那可能是現今十倍甚至更高到百倍的用量 這也是我們一般人難以想像的 最後補充一些我看好的市場吧,因為生成式架構的誕生,讓文字生成,影像生成已經變了 可能,未來就是3D影像領域與控制領域也會變成了可能 例如建立了大量標準動作庫,讓機器人只要看懂一次,就能夠完整的操作此動作, 又或著是在AR/VR領域,現在建立虛擬場景成本很高,之後都靠生成架構,就能降低 很多成本,因此VR MMORPG也會漸漸出現 因此陪伴機器人、家居型機器人會是下一個市場,以及生成式投影機或相關虛擬生成 的產業也會越來越龐大,但我想應該是還要一段時間 題外話,最近OPENAI出了生成式影片的功能,早在一年前我們還在看巨石強生吃石頭,隔 不到一年就有如此大的進步,只能說可能AGI的時代會比我們想像中的還快到達 雖然我是傾向AGI不是已經誕生,就是需要在遙久的以後才會出現吧 -- 那片有座高塔哭著朝北方奔去的天空,是我此刻片尋不著的風景 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.242.104 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709963522.A.6D1.html

03/09 13:56, 1年前 , 1F
看樣子要因為AI失業 只能在家玩刀劍神域了
03/09 13:56, 1F

03/09 13:56, 1年前 , 2F
03/09 13:56, 2F

03/09 13:58, 1年前 , 3F
clip, wave2vec都不需要label data 而wave2vec是後
03/09 13:58, 3F
clip跟wave2vec都要進行預訓練的,並不是不用 只是你直接拿他們訓練好的參數就能夠直接fine tune或是直接映射

03/09 13:58, 1年前 , 4F
VR補習 我已經遇見未來了
03/09 13:58, 4F

03/09 13:58, 1年前 , 5F
來audio encoder幾時(e.g. Meta M4T)
03/09 13:58, 5F

03/09 13:59, 1年前 , 6F
我自己覺得照護類機器人應該沒這ㄇ快
03/09 13:59, 6F

03/09 14:00, 1年前 , 7F
台積電工程師準備被取代
03/09 14:00, 7F

03/09 14:00, 1年前 , 8F
變成決測師
03/09 14:00, 8F

03/09 14:01, 1年前 , 9F
現在最新model一樣base attention machanism
03/09 14:01, 9F

03/09 14:01, 1年前 , 10F
最先會被取代的是櫃檯人員和Uber Eat
03/09 14:01, 10F

03/09 14:01, 1年前 , 11F
On the Opportunities and Risks of Foundation Mo
03/09 14:01, 11F

03/09 14:02, 1年前 , 12F
跟人體有關ㄉ不能出錯 容錯率高產業比較有發展空間
03/09 14:02, 12F

03/09 14:02, 1年前 , 13F
odel裡面有時間軸解釋pretrained model歷史緣由
03/09 14:02, 13F

03/09 14:04, 1年前 , 14F
甚至Bert也是透過無需標註的數據來做pretrianing
03/09 14:04, 14F

03/09 14:05, 1年前 , 15F
因為attention導入有weight, softmax,一樣改變不了
03/09 14:05, 15F

03/09 14:05, 1年前 , 16F
NN 本身base on rateㄉ事實
03/09 14:05, 16F

03/09 14:06, 1年前 , 17F
你所謂高品質標籤數據現在的做法用在finetune
03/09 14:06, 17F

03/09 14:06, 1年前 , 18F
未來城市規劃裡面 智慧運輸載具專用道 也許會變重要
03/09 14:06, 18F

03/09 14:06, 1年前 , 19F
bert fine-tune看用途 一樣需要標籤
03/09 14:06, 19F

03/09 14:06, 1年前 , 20F
可以娶兔子老大的女兒了嗎?
03/09 14:06, 20F

03/09 14:06, 1年前 , 21F
HR 可以取代掉不是嗎?
03/09 14:06, 21F

03/09 14:07, 1年前 , 22F
且以現在模型大小來看wave2vec,bert,clip都小於1b
03/09 14:07, 22F

03/09 14:07, 1年前 , 23F
根本不能算作大模型
03/09 14:07, 23F

03/09 14:08, 1年前 , 24F
對ㄟ hr的確能取代掉xd
03/09 14:08, 24F

03/09 14:08, 1年前 , 25F
克隆打的贏ai不
03/09 14:08, 25F

03/09 14:08, 1年前 , 26F
我摘錄李非非pretrained model 2021那份報告
03/09 14:08, 26F

03/09 14:09, 1年前 , 27F
A foundation model is any model that is trained
03/09 14:09, 27F

03/09 14:10, 1年前 , 28F
on broad data (generally using self-supervision
03/09 14:10, 28F

03/09 14:10, 1年前 , 29F
e.g., fine-tuned) to a wide range of downstream
03/09 14:10, 29F

03/09 14:12, 1年前 , 30F
zero shot在clip來說 一個ccf12資料就可以train出來
03/09 14:12, 30F

03/09 14:12, 1年前 , 31F
我不知道你那些立論是從哪來的....
03/09 14:12, 31F
你沒發現我說的是pre-trained model而不是foundation嗎 其實兩者的概念是有點歷史推移的

03/09 14:12, 1年前 , 32F
跟我想得差不多
03/09 14:12, 32F

03/09 14:14, 1年前 , 33F
人類要滅亡了~
03/09 14:14, 33F
※ 編輯: EvilSD (114.137.242.104 臺灣), 03/09/2024 14:19:03

03/09 14:14, 1年前 , 34F
AI HR 有產品了 但是說取代真人HR還太早
03/09 14:14, 34F

03/09 14:15, 1年前 , 35F
而z-shot clip/bert/wav2vec就是從零開始train啊..
03/09 14:15, 35F
還有 94 則推文
還有 5 段內文
03/09 15:32, 1年前 , 130F
門的方向換N次了
03/09 15:32, 130F

03/09 15:47, 1年前 , 131F
03/09 15:47, 131F

03/09 16:37, 1年前 , 132F
然而掃地機器人還是智障與效果不好
03/09 16:37, 132F

03/09 16:39, 1年前 , 133F
99TSLA
03/09 16:39, 133F

03/09 16:41, 1年前 , 134F
粗略的說cpu像做很長的加法f1+f2是,a11+a12+....+a
03/09 16:41, 134F

03/09 16:41, 1年前 , 135F
1n+a21+a22+....+a2n
03/09 16:41, 135F

03/09 16:42, 1年前 , 136F
像國小的學生一樣2項加完得解再跟第三項加一路做下
03/09 16:42, 136F

03/09 16:42, 1年前 , 137F
03/09 16:42, 137F

03/09 16:42, 1年前 , 138F
GPU就是差在有辦法做tenaor的平行運算 這個部分CPU
03/09 16:42, 138F

03/09 16:42, 1年前 , 139F
再怎麼好都無法取代
03/09 16:42, 139F

03/09 16:45, 1年前 , 140F
GPU,直接兩個長橫式列出來,pop就給你(a11+a21)+(a1
03/09 16:45, 140F

03/09 16:45, 1年前 , 141F
2+a22)+.....+(a1n+a2n)
03/09 16:45, 141F

03/09 16:56, 1年前 , 142F
人力成本多少?AI成本多少?
03/09 16:56, 142F

03/09 17:48, 1年前 , 143F
沒有政府背書法條和歷史性的公約 這種撼動統治階級
03/09 17:48, 143F

03/09 17:48, 1年前 , 144F
的東西能商轉嗎XD
03/09 17:48, 144F

03/09 17:49, 1年前 , 145F
只要未來有AI稅這東西全部崩回原點XD
03/09 17:49, 145F

03/09 17:53, 1年前 , 146F
太專業的討論了,結論就是:1.這個市場還有無限想像
03/09 17:53, 146F

03/09 17:53, 1年前 , 147F
空間,2.以後有可能變成各國軍備競賽,
03/09 17:53, 147F

03/09 17:56, 1年前 , 148F
結論:NVDA和AMD繼續噴 TSLA就是個嘴砲仔
03/09 17:56, 148F

03/09 18:22, 1年前 , 149F
03/09 18:22, 149F

03/09 19:11, 1年前 , 150F
NVDA領頭噴,TSM後面遞水
03/09 19:11, 150F

03/09 23:07, 1年前 , 151F
03/09 23:07, 151F

03/09 23:37, 1年前 , 152F
我老婆初音終於要有身體了
03/09 23:37, 152F

03/10 01:19, 1年前 , 153F
專業推
03/10 01:19, 153F

03/10 02:00, 1年前 , 154F
大間的 CSP 應該都會弄 CPU+自有TPU 的方式
03/10 02:00, 154F

03/10 02:01, 1年前 , 155F
沒辦法丟資源的才會弄 GPU ,CPU 也可以跑就推理
03/10 02:01, 155F

03/10 02:01, 1年前 , 156F
最近看到 intel i14 大打推理,不知道實際速度如何
03/10 02:01, 156F

03/10 04:41, 1年前 , 157F
其實我覺得L大講的比較對。這篇的講法有些聞題
03/10 04:41, 157F

03/10 04:42, 1年前 , 158F
一開始的訓練並不是使用標記資料的。
03/10 04:42, 158F

03/10 04:43, 1年前 , 159F
就連在預訓練的前置訓練,像是word2vec這種淺層的
03/10 04:43, 159F

03/10 04:43, 1年前 , 160F
神經網路
03/10 04:43, 160F

03/10 04:43, 1年前 , 161F
也沒有標記什麼東西。
03/10 04:43, 161F

03/10 04:44, 1年前 , 162F
有的,只是輸入和輸出的配對,藉由訓練去找出規律,
03/10 04:44, 162F

03/10 04:44, 1年前 , 163F
就是所謂的模型
03/10 04:44, 163F

03/10 04:48, 1年前 , 164F
而在後面各式的task中,會對模型進行fine tuning 。
03/10 04:48, 164F

03/10 04:49, 1年前 , 165F
而有些task,例如NER或是NEN,就需要高品質的預先
03/10 04:49, 165F

03/10 04:49, 1年前 , 166F
標示好的資料。
03/10 04:49, 166F

03/10 09:45, 1年前 , 167F
黃董直接嗆那些替代晶片就算免費 TCO還是比較貴
03/10 09:45, 167F

03/10 09:45, 1年前 , 168F
真的厲害惹 事情沒有媒體講的那麼簡單
03/10 09:45, 168F

03/10 09:47, 1年前 , 169F
CSP不會用TPU這種侷限性很高的東西= =
03/10 09:47, 169F
文章代碼(AID): #1bw_a2RH (Stock)
討論串 (同標題文章)
文章代碼(AID): #1bw_a2RH (Stock)