Re: [請益] 請問版上有學習過AI的前輩嗎?已刪文

看板Tech_Job (科技人)作者LDPC (Channel Coding)時間3周前 (2025/08/04 20:38)推噓7(7推 0噓 3→)

留言10則, 8人參與討論串2/3 (看更多)

以下是我蝦虎扯觀點如果你覺得不對一切你已觀念為主 @@ 在學習AI之前另外一種全面認知可以嘗試讓你尋找到一個好切入點 1. 你的就業導向也就是你想做的應用方面是在屬於哪種? >>模型設計還是系統整合? on-device端的deep-learning?還是GenAI相關? 2. 模型的大小跟GPU資源有一定相關性 GPU需要用的數量愈大市場上要求的也越機車相對的開發時GPU用的數量越大你的薪水上限也越高 3. 常工具發展框架(PyTorch/HuggingFace/Nemo 和 Onnx/Tensorflow->device端) 整個過去大概可以拆成三塊（不是很精準但如果你覺得錯一切以你認知為主) 傳統統計為主模型AI -> Deep Learning (分界點免強算2018) -> Gen AI 這三個階段可以用GPU資源來解釋這三個階段說穿就是資料數量和模型大小(餐數量) 模型參數(模型大小和資料數量之間有一個關係公式當數據比模型參數大會造成 under-fitting 當模型比數據大時會造成over-fitting 所以之間一直有一個恆等式在而模型大小和GPU又有相關性而所有AI知識很多教科書是統計學大概介於傳統模型/Deep Learning這種比較尷尬是很多過去需要大量數學背景在Deep Learning後或者Gen AI 就再也用不到比方說VAE/GAN 這類當初著重在探討Latent Space 現在都已經被Diffusion取代語言模型也是n-gram機率模型推導在後期Bert時期就也不在存在 tokenizer也是如此從早期數學上的tokenizer/sub-word/word level 到現在直接用資料上迭代去產生token sub-word的切割法在工具框架上 HuggingFace和Nemo都是從Pytorch往上蓋的模型設計工具如果你的模型跟Transformer無關 (e.g. LSTM/RNN/CNN/SSM) 那你就會用到Pytorch 而因為整個Gen AI ( Foundaion Model/LLM/Encoder)都是Transformer蓋的所以會用到HuggingFace為主若觸碰Deep Learning這塊模型跟現在比起偏小大概會座落在參數1B以下所以落地場景通常是Computer Vision的object detection/Person identfication/ASR/Keyword Spotting/Pose Estimation/甚至NLU 也因為這類模型座落在1B以下現階段大多都會deploy在edge device 所以通常會搭配需要額外技能pruning/quantization/distillation 作為deploy 到edge device (諸如手機耳機冰箱機器人) 此時需要會onnx和tensorflow技能因為tensorflow有大量開發給device的模型轉換像是tensorflow還為此開發tiny-ML 給embedding system用的模型deploy 這類落地場景就是meta reality lab相關的 AR眼鏡上的hand-tracking/eye-tracking 或者狗家的照片magic erasier(Inpainting) 又或者人體姿態追蹤(Pose-estimaition) 通常用在機器人或人體姿態理解當你如果觸碰到傳統ML 你的工作型態大概都會必須涵蓋deploy端的任務也就是 C和模型轉換當然這部分還有些分支像是Recommendaiton System 這邊就跳過你當然也可以把這類模型放到雲端GPU 但是現在大體edge device再跑1B模型都沒有太大問題許多edge晶片都有設計給ai模型加速用(NPU等等) 甚至一般CPU device 所以走傳統一般deep-learning 就大概等同需要on-device deployment/c++技能然後現在講到第三塊Gen AI 這類模型通常就是以Transformer架構為主主因是牽涉到會具有涵蓋pre-training階段需要大量數據因此模型大小都是1B起跳然後模型通常訓練pre-training和RL post-training會需要大量GPU (GPU>100) 所以這類工作性質就是薪水給最高那塊部分人會去做LoRA Fine-Tuning ( GPU <8) 這個就屬於 PhD念完ML大概會去做的通常是針對下游任務做現在就業有兩種 MLE或ML Researcher Scentist(代號RS) 前者就是call api 或者觸碰AI Infra 這個就業數量巨大極度缺人做的就是AI系統整合基本上都是碼農轉職過來現在只要有點能力MLE 都可以去openai 面試就是需要強大的coding技巧和基礎AI知識走這邊的話基本上傳統AI可以不用看像是SVM推導啥daul-norm定理 scikit-learn都可以不用碰甚至誇張點說你CV那邊的只要懂CNN NLP大部分的傳統n-gram/markov 也可以扔了其他啥 continuous learning/RCNN/FastRCNN/ 全部可以扔了啥one-stage/two-stage 好處優缺點不用管 vae/gan 啥的也可以扔了要做影像產生只要刷diffusion diffusion就是要專注如何讓iteration迭代次數大幅下降使得影像產出速度變快面試重點就是大部分都是環繞在GEN AI上比方enc-dec架構 dec/RAG/Knolwedge Graph 大概懂就好像是為啥knowledge graph比embedding vector來的更好找尋資料相關性 git上面多模態就刷clip 語言模型就刷bert跟minigpt 只要會lora fine-tuning 其他都不要碰 pre-training那種都不要管那是給下面的人做的大部分的就業就是維護系統 call api 打造下游任務和增加inference thropughout 歐對了要把LLM KV cache摸熟那是infra裡面最重要的工具像是怎樣拆解 pre-fill和generation 兩stage 如何模型在通訊loading 拆解分到個cluster 如果對c++擅長可以去打nanogpt-speedrun挑戰賽體驗AI infra怎樣玩也因為用到的GPU數量是就業最少的所以通常不會要求有paper但需要C++如果寫infra時後者RS就業現在有點紅海職缺相對少因為都要求要有發paper 這週末審完NeurIPS @@ 真的是殺得慘不忍睹現在都零和遊戲每個reviewer淚氣都很重你今天不幹死對方下次就是對方幹死你paper 好處是薪水上限無限高建議大家都去當MLE 不過版上閒聊看起來一堆人都是AI專家他們如果講的跟我不同以他們為主@@ 我已經被科技版AI專家嗆過好幾次了 RS裡面又分地位取決於大概可以跟你碰多少GPU免強算上點關係越重要RS通常GPU數量會越高而Fine-Tune LoRA通常你碰到模型參數大概不過是本體模型0.1% 所以GPU數量通常低於8 而部分RS會走面向模型evaulation部分如果到此為止你還是真的想走reseracher 那就把Hugging Face程式碼一行行看看llama怎樣寫 whisper怎樣寫 embedding怎樣設計 encoder怎樣做alignment 為何整個模型參數量70%都會在FC layer而不是attention layer 為何pre-fill可以每秒上千token 為何generation 只能~50~100 token second 為何要用RMS Norm layer不是以前的LayerNorm 為何主流activation 要用ReLu 不用sigmod 為啥現在learning rate都有Warm-up Phase 以前則是梯度下降為何conformer架構在bf16容易崩以及如何post-training用RF做RLHF 這種觸感只能一行行程式碼跑改架構然後改壞掉痛過一次才會知道為啥這樣設計看教材是沒有那種很深體悟不太建議去摸啥統計啊 ML Statistics 因為看完你還是不知道怎樣去改模型等你對架構有概念再回去看那些傳統教科書你才會理解當初那些鬼玩意是在幹啥像是contrastive loss 為啥適合用在self-supervised上為啥informaiton theory KL可以用在distilliation上 embedding space/latent space是啥鬼玩意除非你想念PhD 不然最簡單速成就是去玩code一個個模組改然後再回來看那些數學模型基本上就是上篇scotch大大推文的做法你就會意識到許多統計AI模型知識很多都大概也不會用到了回過頭一切還是取決你想做啥以及你需要多少GPU 如果你想要做越需要GPU 那公司就會很喜歡用paper來當門檻刷就算你真的弄了一堆頂會paper 你可能還是沒妹子@@b 極大不建議 ※ 引述《wa007123456 (大笨羊)》之銘言： : 目前還不確定要學多廣 : 因為深度學習的原理好像滿困難的 : 我想有兩條路線: : 1. 從數據分析(資料科學)開始(理論 > 實作): : 這部分我有一本原文書可以看 : 了解數據分析的基礎 => 可能會使用Python加上一些常用套件(NumPy、Pandas : Matplotlib...etc)，並了解一些會用到的數學 : 知識 : 進一步演進到機器學習 => 使用scikit-learn，學習 : 分類 => 迴規 => 集群 => 降維 : 然後後面還有一堆我沒碰過的東西: : a. 模型驗證 : b. 超參數 : c. 特徵工程 : d. 貝氏分類法 : e. 決策樹 : .... 等 : 結束後，"應該"可以理解並實作一個簡單的"臉部辨識" : 2. 直接使用現成的AI (使用Google 的 Gemini API 實作>理論): : 這部分直接使用網路教學，我有找到一堆資料了。 : 等到摸熟了再回去學剛才提到的第一點?! : 我的目的是要學會它的基礎原理並加以利用... : 不知版上是否有人有學習AI的經驗，感謝提供意見。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.212.28 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1754311119.A.73E.html ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 20:55:03

→

MTKer5566

08/04 21:21, 3周前 , 1^F

08/04 21:21, 1^F

※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:19:43

推

fir191938

08/04 21:45, 3周前 , 2^F

08/04 21:45, 2^F

推

gn01216674

08/04 21:58, 3周前 , 3^F

08/04 21:58, 3^F

推

fakon

08/04 22:02, 3周前 , 4^F

08/04 22:02, 4^F

推

Leohs

08/04 22:18, 3周前 , 5^F

08/04 22:18, 5^F

※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:20:32 ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:23:08 ※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:34:03

推

watashino

08/04 22:34, 3周前 , 6^F

08/04 22:34, 6^F

→

watashino

08/04 22:34, 3周前 , 7^F

08/04 22:34, 7^F

→

watashino

08/04 22:34, 3周前 , 8^F

08/04 22:34, 8^F