Re: [請益] 請問版上有學習過AI的前輩嗎?已刪文
看板Tech_Job (科技人)作者LDPC (Channel Coding)時間4小時前 (2025/08/04 20:38)推噓7(7推 0噓 3→)留言10則, 8人參與討論串2/2 (看更多)
以下是我蝦虎扯觀點 如果你覺得不對 一切你已觀念為主 @@
在學習AI之前 另外一種全面認知可以嘗試讓你尋找到一個好切入點
1. 你的就業導向 也就是你想做的應用方面是在屬於哪種?
>>模型設計還是系統整合? on-device端的deep-learning?還是GenAI相關?
2. 模型的大小跟GPU資源有一定相關性 GPU需要用的數量愈大 市場上要求的也越機車
相對的 開發時GPU用的數量越大 你的薪水上限也越高
3. 常工具發展框架(PyTorch/HuggingFace/Nemo 和 Onnx/Tensorflow->device端)
整個過去大概可以拆成三塊 (不是很精準 但如果你覺得錯 一切以你認知為主)
傳統統計為主模型AI -> Deep Learning (分界點免強算2018) -> Gen AI
這三個階段可以用GPU資源來解釋 這三個階段說穿就是資料數量和模型大小(餐數量)
模型參數(模型大小和資料數量之間有一個關係公式 當數據比模型參數大會造成
under-fitting 當模型比數據大時 會造成over-fitting 所以之間一直有一個恆等式在
而模型大小和GPU又有相關性
而所有AI知識很多教科書是統計學 大概介於傳統模型/Deep Learning這種
比較尷尬是 很多過去需要大量數學背景 在Deep Learning後或者Gen AI 就再也用不到
比方說VAE/GAN 這類 當初著重在探討Latent Space 現在都已經被Diffusion取代
語言模型也是n-gram機率模型推導 在後期Bert時期 就也不在存在
tokenizer也是如此 從早期數學上的tokenizer/sub-word/word level 到現在直接
用資料上迭代去產生token sub-word的切割法
在工具框架上 HuggingFace和Nemo都是從Pytorch往上蓋的模型設計工具
如果你的模型跟Transformer無關 (e.g. LSTM/RNN/CNN/SSM) 那你就會用到Pytorch
而因為整個Gen AI ( Foundaion Model/LLM/Encoder)都是Transformer蓋的
所以會用到HuggingFace為主
若觸碰Deep Learning這塊 模型跟現在比起偏小 大概會座落在參數1B以下 所以落地場景
通常是Computer Vision的object detection/Person identfication/ASR/Keyword
Spotting/Pose Estimation/甚至NLU 也因為這類模型座落在1B以下
現階段大多都會deploy在edge device
所以通常會搭配需要額外技能pruning/quantization/distillation 作為deploy
到edge device (諸如手機 耳機 冰箱 機器人) 此時需要會onnx和tensorflow技能
因為tensorflow有大量開發給device的模型轉換 像是tensorflow還為此開發tiny-ML
給embedding system用的模型deploy 這類落地場景就是meta reality lab相關的
AR眼鏡上的hand-tracking/eye-tracking 或者狗家的照片magic erasier(Inpainting)
又或者人體姿態追蹤(Pose-estimaition) 通常用在機器人或人體姿態理解
當你如果觸碰到傳統ML 你的工作型態大概都會必須涵蓋deploy端的任務 也就是
C和模型轉換 當然這部分還有些分支像是Recommendaiton System 這邊就跳過
你當然也可以把這類模型放到雲端GPU 但是現在大體edge device再跑1B模型都沒有
太大問題 許多edge晶片都有設計給ai模型加速用(NPU等等) 甚至一般CPU device
所以走傳統一般deep-learning 就大概等同需要on-device deployment/c++技能
然後現在講到第三塊Gen AI 這類模型通常就是以Transformer架構為主
主因是牽涉到會具有涵蓋pre-training階段 需要大量數據 因此模型大小都是1B起跳
然後模型通常訓練pre-training和RL post-training會需要大量GPU (GPU>100) 所以這類
工作性質 就是薪水給最高那塊 部分人會去做LoRA Fine-Tuning ( GPU <8) 這個就屬於
PhD念完ML大概會去做的 通常是針對下游任務做
現在就業有兩種 MLE或ML Researcher Scentist(代號RS)
前者就是call api 或者觸碰AI Infra 這個就業數量巨大 極度缺人 做的就是AI系統整合
基本上都是碼農轉職過來 現在只要有點能力MLE 都可以去openai
面試就是需要強大的coding技巧和基礎AI知識 走這邊的話 基本上傳統AI可以不用看
像是SVM推導 啥daul-norm定理 scikit-learn都可以不用碰 甚至誇張點說
你CV那邊的只要懂CNN NLP大部分的傳統n-gram/markov 也可以扔了
其他啥 continuous learning/RCNN/FastRCNN/ 全部可以扔了 啥one-stage/two-stage
好處優缺點不用管 vae/gan 啥的也可以扔了 要做影像產生只要刷diffusion
diffusion就是要專注如何讓iteration迭代次數大幅下降 使得影像產出速度變快
面試重點就是大部分都是環繞在GEN AI上 比方enc-dec架構 dec/RAG/Knolwedge
Graph 大概懂就好
像是為啥knowledge graph比embedding vector來的更好找尋資料相關性
git上面 多模態就刷clip 語言模型就刷bert跟minigpt 只要會lora fine-tuning
其他都不要碰 pre-training那種都不要管 那是給下面的人做的 大部分的就業
就是維護系統 call api 打造下游任務 和增加inference thropughout
歐對了 要把LLM KV cache摸熟 那是infra裡面最重要的工具 像是怎樣拆解
pre-fill和generation 兩stage 如何模型在通訊loading 拆解分到個cluster
如果對c++擅長 可以去打nanogpt-speedrun挑戰賽 體驗AI infra怎樣玩
也因為用到的GPU數量是就業最少的 所以通常不會要求有paper但需要C++如果寫infra時
後者RS就業現在有點紅海 職缺相對少 因為都要求要有發paper 這週末審完NeurIPS @@
真的是殺得慘不忍睹 現在都零和遊戲 每個reviewer淚氣都很重 你今天不幹死對方
下次就是對方幹死你paper 好處是薪水上限無限高
建議大家都去當MLE 不過版上閒聊看起來一堆人都是AI專家 他們如果講的跟我不同
以他們為主@@ 我已經被科技版AI專家嗆過好幾次了 RS裡面又分地位
取決於大概可以跟你碰多少GPU免強算上點關係 越重要RS通常GPU數量會越高
而Fine-Tune LoRA通常你碰到模型參數大概不過是本體模型0.1%
所以GPU數量通常低於8 而部分RS會走面向模型evaulation部分
如果到此為止你還是真的想走reseracher 那就把Hugging Face程式碼一行行看
看llama怎樣寫 whisper怎樣寫 embedding怎樣設計 encoder怎樣做alignment
為何整個模型參數量70%都會在FC layer而不是attention layer 為何pre-fill可以每秒
上千token 為何generation 只能~50~100 token second 為何要用RMS Norm layer不是
以前的LayerNorm 為何主流activation 要用ReLu 不用sigmod 為啥現在learning
rate都有Warm-up Phase 以前則是梯度下降 為何conformer架構在bf16容易崩
以及如何post-training用RF做RLHF
這種觸感只能一行行程式碼跑 改架構 然後改壞掉
痛過一次才會知道為啥這樣設計 看教材是沒有那種很深體悟 不太建議去摸啥統計啊
ML Statistics 因為看完 你還是不知道怎樣去改模型 等你對架構有概念
再回去看那些傳統教科書 你才會理解當初那些鬼玩意是在幹啥 像是contrastive loss
為啥適合用在self-supervised上 為啥informaiton theory KL可以用在distilliation上
embedding space/latent space是啥鬼玩意 除非你想念PhD 不然最簡單速成
就是去玩code一個個模組改 然後再回來看那些數學模型 基本上就是上篇scotch大大推文
的做法
你就會意識到 許多統計AI模型知識很多都大概也不會用到了 回過頭一切還是取決你想做
啥以及你需要多少GPU 如果你想要做越需要GPU 那公司就會很喜歡用paper來當門檻刷
就算你真的弄了一堆頂會paper 你可能還是沒妹子@@b 極大不建議
※ 引述《wa007123456 (大笨羊)》之銘言:
: 目前還不確定要學多廣
: 因為深度學習的原理好像滿困難的
: 我想有兩條路線:
: 1. 從數據分析(資料科學)開始(理論 > 實作):
: 這部分我有一本原文書可以看
: 了解數據分析的基礎 => 可能會使用Python加上一些常用套件(NumPy、Pandas
: Matplotlib...etc),並了解一些會用到的數學
: 知識
: 進一步演進到機器學習 => 使用scikit-learn,學習
: 分類 => 迴規 => 集群 => 降維
: 然後後面還有一堆我沒碰過的東西:
: a. 模型驗證
: b. 超參數
: c. 特徵工程
: d. 貝氏分類法
: e. 決策樹
: .... 等
: 結束後,"應該"可以理解並實作一個簡單的"臉部辨識"
: 2. 直接使用現成的AI (使用Google 的 Gemini API 實作>理論):
: 這部分直接使用網路教學,我有找到一堆資料了。
: 等到摸熟了再回去學剛才提到的第一點?!
: 我的目的是要學會它的基礎原理並加以利用...
: 不知版上是否有人有學習AI的經驗,感謝提供意見。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.212.28 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1754311119.A.73E.html
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 20:55:03
→
08/04 21:21,
4小時前
, 1F
08/04 21:21, 1F
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:19:43
推
08/04 21:45,
3小時前
, 2F
08/04 21:45, 2F
推
08/04 21:58,
3小時前
, 3F
08/04 21:58, 3F
推
08/04 22:02,
3小時前
, 4F
08/04 22:02, 4F
推
08/04 22:18,
3小時前
, 5F
08/04 22:18, 5F
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:20:32
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:23:08
※ 編輯: LDPC (61.231.212.28 臺灣), 08/04/2025 22:34:03
推
08/04 22:34,
2小時前
, 6F
08/04 22:34, 6F
→
08/04 22:34,
2小時前
, 7F
08/04 22:34, 7F
→
08/04 22:34,
2小時前
, 8F
08/04 22:34, 8F
推
08/04 22:45,
2小時前
, 9F
08/04 22:45, 9F
推
08/04 22:56,
2小時前
, 10F
08/04 22:56, 10F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
13
50
Tech_Job 近期熱門文章
PTT職涯區 即時熱門文章