Re: [請益] 請問版上有學習過AI的前輩嗎?已刪文

看板Tech_Job (科技人)作者 (Channel Coding)時間4小時前 (2025/08/04 20:38), 2小時前編輯推噓7(703)
留言10則, 8人參與, 2小時前最新討論串2/2 (看更多)
以下是我蝦虎扯觀點 如果你覺得不對 一切你已觀念為主 @@ 在學習AI之前 另外一種全面認知可以嘗試讓你尋找到一個好切入點 1. 你的就業導向 也就是你想做的應用方面是在屬於哪種? >>模型設計還是系統整合? on-device端的deep-learning?還是GenAI相關? 2. 模型的大小跟GPU資源有一定相關性 GPU需要用的數量愈大 市場上要求的也越機車 相對的 開發時GPU用的數量越大 你的薪水上限也越高 3. 常工具發展框架(PyTorch/HuggingFace/Nemo 和 Onnx/Tensorflow->device端) 整個過去大概可以拆成三塊 (不是很精準 但如果你覺得錯 一切以你認知為主) 傳統統計為主模型AI -> Deep Learning (分界點免強算2018) -> Gen AI 這三個階段可以用GPU資源來解釋 這三個階段說穿就是資料數量和模型大小(餐數量) 模型參數(模型大小和資料數量之間有一個關係公式 當數據比模型參數大會造成 under-fitting 當模型比數據大時 會造成over-fitting 所以之間一直有一個恆等式在 而模型大小和GPU又有相關性 而所有AI知識很多教科書是統計學 大概介於傳統模型/Deep Learning這種 比較尷尬是 很多過去需要大量數學背景 在Deep Learning後或者Gen AI 就再也用不到 比方說VAE/GAN 這類 當初著重在探討Latent Space 現在都已經被Diffusion取代 語言模型也是n-gram機率模型推導 在後期Bert時期 就也不在存在 tokenizer也是如此 從早期數學上的tokenizer/sub-word/word level 到現在直接 用資料上迭代去產生token sub-word的切割法 在工具框架上 HuggingFace和Nemo都是從Pytorch往上蓋的模型設計工具 如果你的模型跟Transformer無關 (e.g. LSTM/RNN/CNN/SSM) 那你就會用到Pytorch 而因為整個Gen AI ( Foundaion Model/LLM/Encoder)都是Transformer蓋的 所以會用到HuggingFace為主 若觸碰Deep Learning這塊 模型跟現在比起偏小 大概會座落在參數1B以下 所以落地場景 通常是Computer Vision的object detection/Person identfication/ASR/Keyword Spotting/Pose Estimation/甚至NLU 也因為這類模型座落在1B以下 現階段大多都會deploy在edge device 所以通常會搭配需要額外技能pruning/quantization/distillation 作為deploy 到edge device (諸如手機 耳機 冰箱 機器人) 此時需要會onnx和tensorflow技能 因為tensorflow有大量開發給device的模型轉換 像是tensorflow還為此開發tiny-ML 給embedding system用的模型deploy 這類落地場景就是meta reality lab相關的 AR眼鏡上的hand-tracking/eye-tracking 或者狗家的照片magic erasier(Inpainting) 又或者人體姿態追蹤(Pose-estimaition) 通常用在機器人或人體姿態理解 當你如果觸碰到傳統ML 你的工作型態大概都會必須涵蓋deploy端的任務 也就是 C和模型轉換 當然這部分還有些分支像是Recommendaiton System 這邊就跳過 你當然也可以把這類模型放到雲端GPU 但是現在大體edge device再跑1B模型都沒有 太大問題 許多edge晶片都有設計給ai模型加速用(NPU等等) 甚至一般CPU device 所以走傳統一般deep-learning 就大概等同需要on-device deployment/c++技能 然後現在講到第三塊Gen AI 這類模型通常就是以Transformer架構為主 主因是牽涉到會具有涵蓋pre-training階段 需要大量數據 因此模型大小都是1B起跳 然後模型通常訓練pre-training和RL post-training會需要大量GPU (GPU>100) 所以這類 工作性質 就是薪水給最高那塊 部分人會去做LoRA Fine-Tuning ( GPU <8) 這個就屬於 PhD念完ML大概會去做的 通常是針對下游任務做 現在就業有兩種 MLE或ML Researcher Scentist(代號RS) 前者就是call api 或者觸碰AI Infra 這個就業數量巨大 極度缺人 做的就是AI系統整合 基本上都是碼農轉職過來 現在只要有點能力MLE 都可以去openai 面試就是需要強大的coding技巧和基礎AI知識 走這邊的話 基本上傳統AI可以不用看 像是SVM推導 啥daul-norm定理 scikit-learn都可以不用碰 甚至誇張點說 你CV那邊的只要懂CNN NLP大部分的傳統n-gram/markov 也可以扔了 其他啥 continuous learning/RCNN/FastRCNN/ 全部可以扔了 啥one-stage/two-stage 好處優缺點不用管 vae/gan 啥的也可以扔了 要做影像產生只要刷diffusion diffusion就是要專注如何讓iteration迭代次數大幅下降 使得影像產出速度變快 面試重點就是大部分都是環繞在GEN AI上 比方enc-dec架構 dec/RAG/Knolwedge Graph 大概懂就好 像是為啥knowledge graph比embedding vector來的更好找尋資料相關性 git上面 多模態就刷clip 語言模型就刷bert跟minigpt 只要會lora fine-tuning 其他都不要碰 pre-training那種都不要管 那是給下面的人做的 大部分的就業 就是維護系統 call api 打造下游任務 和增加inference thropughout 歐對了 要把LLM KV cache摸熟 那是infra裡面最重要的工具 像是怎樣拆解 pre-fill和generation 兩stage 如何模型在通訊loading 拆解分到個cluster 如果對c++擅長 可以去打nanogpt-speedrun挑戰賽 體驗AI infra怎樣玩 也因為用到的GPU數量是就業最少的 所以通常不會要求有paper但需要C++如果寫infra時 後者RS就業現在有點紅海 職缺相對少 因為都要求要有發paper 這週末審完NeurIPS @@ 真的是殺得慘不忍睹 現在都零和遊戲 每個reviewer淚氣都很重 你今天不幹死對方 下次就是對方幹死你paper 好處是薪水上限無限高 建議大家都去當MLE 不過版上閒聊看起來一堆人都是AI專家 他們如果講的跟我不同 以他們為主@@ 我已經被科技版AI專家嗆過好幾次了 RS裡面又分地位 取決於大概可以跟你碰多少GPU免強算上點關係 越重要RS通常GPU數量會越高 而Fine-Tune LoRA通常你碰到模型參數大概不過是本體模型0.1% 所以GPU數量通常低於8 而部分RS會走面向模型evaulation部分 如果到此為止你還是真的想走reseracher 那就把Hugging Face程式碼一行行看 看llama怎樣寫 whisper怎樣寫 embedding怎樣設計 encoder怎樣做alignment 為何整個模型參數量70%都會在FC layer而不是attention layer 為何pre-fill可以每秒 上千token 為何generation 只能~50~100 token second 為何要用RMS Norm layer不是 以前的LayerNorm 為何主流activation 要用ReLu 不用sigmod 為啥現在learning rate都有Warm-up Phase 以前則是梯度下降 為何conformer架構在bf16容易崩 以及如何post-training用RF做RLHF 這種觸感只能一行行程式碼跑 改架構 然後改壞掉 痛過一次才會知道為啥這樣設計 看教材是沒有那種很深體悟 不太建議去摸啥統計啊 ML Statistics 因為看完 你還是不知道怎樣去改模型 等你對架構有概念 再回去看那些傳統教科書 你才會理解當初那些鬼玩意是在幹啥 像是contrastive loss 為啥適合用在self-supervised上 為啥informaiton theory KL可以用在distilliation上 embedding space/latent space是啥鬼玩意 除非你想念PhD 不然最簡單速成 就是去玩code一個個模組改 然後再回來看那些數學模型 基本上就是上篇scotch大大推文 的做法 你就會意識到 許多統計AI模型知識很多都大概也不會用到了 回過頭一切還是取決你想做 啥以及你需要多少GPU 如果你想要做越需要GPU 那公司就會很喜歡用paper來當門檻刷 就算你真的弄了一堆頂會paper 你可能還是沒妹子@@b 極大不建議 ※ 引述《wa007123456 (大笨羊)》之銘言: : 目前還不確定要學多廣 : 因為深度學習的原理好像滿困難的 : 我想有兩條路線: : 1. 從數據分析(資料科學)開始(理論 > 實作): : 這部分我有一本原文書可以看 : 了解數據分析的基礎 => 可能會使用Python加上一些常用套件(NumPy、Pandas : Matplotlib...etc),並了解一些會用到的數學 : 知識 : 進一步演進到機器學習 => 使用scikit-learn,學習 : 分類 => 迴規 => 集群 => 降維 : 然後後面還有一堆我沒碰過的東西: : a. 模型驗證 : b. 超參數 : c. 特徵工程 : d. 貝氏分類法 : e. 決策樹 : .... 等 : 結束後,"應該"可以理解並實作一個簡單的"臉部辨識" : 2. 直接使用現成的AI (使用Google 的 Gemini API 實作>理論): : 這部分直接使用網路教學,我有找到一堆資料了。 : 等到摸熟了再回去學剛才提到的第一點?! : 我的目的是要學會它的基礎原理並加以利用... : 不知版上是否有人有學習AI的經驗,感謝提供意見。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.212.28 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1754311119.A.73E.html ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 20:55:03

08/04 21:21, 4小時前 , 1F
收學生嗎
08/04 21:21, 1F
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:19:43

08/04 21:45, 3小時前 , 2F
真厲害 推一個
08/04 21:45, 2F

08/04 21:58, 3小時前 , 3F
在台灣學ai只會被叫去做關燈工廠吧
08/04 21:58, 3F

08/04 22:02, 3小時前 , 4F
推分享
08/04 22:02, 4F

08/04 22:18, 3小時前 , 5F
08/04 22:18, 5F
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:20:32 ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:23:08 ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:34:03

08/04 22:34, 2小時前 , 6F
優文 不過有個問題
08/04 22:34, 6F

08/04 22:34, 2小時前 , 7F
lora跟post-train現在也沒太多技術門檻
08/04 22:34, 7F

08/04 22:34, 2小時前 , 8F
08/04 22:34, 8F

08/04 22:45, 2小時前 , 9F
好文 推
08/04 22:45, 9F

08/04 22:56, 2小時前 , 10F
不明覺厲啊
08/04 22:56, 10F
文章代碼(AID): #1eaAdFS- (Tech_Job)
文章代碼(AID): #1eaAdFS- (Tech_Job)