[心得] 終端AI的時代來臨了

看板Stock (股票)作者 (I am an agent of chaos)時間1小時前 (2026/04/07 00:37), 27分鐘前編輯推噓17(19231)
留言52則, 30人參與, 30分鐘前最新討論串1/1
有影片好讀版 https://reurl.cc/7EkLDD GOOGLE 真的做了一件很可怕的事情。 可怕的地方,不是它又發了一個更大的模型,也不是再蓋一座更大的資料中心,而是它正 在把生成式 AI 的主戰場,從雲端慢慢搬到終端。Google AI Edge Gallery 已經公開把 「離線、在裝置上、直接跑開源模型」這件事做成可下載、可體驗、可驗證的產品展示; Google AI Edge 的 LLM Inference API 也明確把「完全在裝置上執行 LLM」列為正式能 力,Gemma 4 與 Gemma 3n 則持續朝手機、平板、筆電這類 everyday devices 最佳化。 這代表方向已經不是概念驗證,而是平台層、模型層、工具鏈三條線一起往前推。 我自己的判斷,是這個趨勢已經過了「會不會發生」的階段,進入「什麼時候大規模落地 」的階段。我使用 2015 年的 Lenovo Y700、16GB RAM、GTX 960 4GB,實測 Gemma 4 E2B / E4B 在量化後仍有不差的推論速度;另一邊,用 Samsung S24 Ultra 測試(有NPU ,12g記憶體) Google AI Edge Gallery,體感速度如影片我沒有使用影片加速。 這兩個測試的共同訊號很清楚:只要模型夠小、量化夠深、執行框架夠貼近硬體,很多過 去 賴雲端 GPU 的任務,現在已經能在消費級終端本地完成。S24 Ultra 這類手機本身也已 經把 NPU 作為賣點之一,Google 端則直接提供 on-device generative AI 的展示與 API,這不是單點突破,而是供應鏈上下游開始對齊。 模型蒸餾技術相當成熟,剪接嫁支能力,基本不是難事,這也是模型雖然小,卻一定程度 上可以五臟俱全,不是五技而窮的結果。 以現代科技的迭代速度,我會說三年內終端隨身 AI 助理幾乎是必然,因為經濟誘因已 經足夠強。七巨頭過去兩年把 AI 的資本支出拉到前所未有的水位:Meta 2025 年全年資 本支出達 722.2 億美元;Microsoft 在 2025 會計年度第四季單季資本支出就達 242 億 美元;Alphabet 已預告 2026 年資本支出將落在 1750 億到 1850 億美元;Amazon 也已 公開表示 2025 年資本支出提高到 1000 億美元,且絕大部分投入 AI 資料中心。 這些數字說明,雲端推理需求確實還在暴增;但也正因為暴增,雲端才更需要把一部分工 作卸載到用戶手上的裝置。只要能把摘要、意圖辨識、OCR、翻譯、個人知識整理、UI 操 作代理這類高頻任務切到本地端,雲端就能把昂貴算力留給更長上下文、更大模型、 更複雜的多代理工作。 從資金回收角度看,終端 AI 不是雲端的對手,而是雲端資本支出的緩衝器。 這也是 Google 這一步真正厲害的地方。它不是只做模型,而是同時做模型、裝置端推論 框架、展示應用與開發入口。 對使用者來說,AI Edge Gallery 把「本地模型其實已經能用」這件事直接變成體感; 對開發者來說,LLM Inference API 與 LiteRT-LM 把部署門 檻往下壓。當工具鏈成形,真正的競爭就不再只是誰的基礎模型分數高,而是誰能更快把 能力下放到手機、平板、筆電、車機、眼鏡、工控設備與家用裝置。 如果有認識台灣谷歌的人可以內推我嗎? XD 我可以去打雜 再看技術面,量化技術正在把這件事推到更現實的階段。前面提到的本地測試之所以成立 ,核心就在量化。低 bit 權重早已不是新題目,但現在更值得注意的是 KV cache 壓縮 。Google Research 今年公開的 TurboQuant,主打在幾乎不損失精度的前提下,大幅壓 縮模型大小與 KV cache;官方直接把它定位為支援 KV cache compression 與向量搜尋 的高效率壓縮方法。 若這類方法進一步成熟並被主流推論框架吸收,終端裝置的瓶頸就不再只是權重能不能塞 進去,而是長上下文能不能維持、記憶體能不能撐住、延遲能不能壓 低。這會直接改寫本地 AI 的可用範圍。過去手機本地 AI 常常只能做短任務,接下來則 可能走向真正的常駐式助理。 想像一下,你有像銀河飛龍 star trek 畢凱艦長胸前的裝置(這樣會不會有點暴露年紀? 或是 HALO CORTANA 真正能透過裝置上感測器,然後本地運行的AI模型,只有特殊高算力 場景才要連上大腦。那可以幫你處理多少事情? 股點來了 從硬體演進來看,未來三到五年最值得注意的不是單純「GPU 更大」,而是記憶體階層會 被重新設計。手機 SoC、NPU、記憶體、封裝內高頻寬記憶體、PC 端更高容量 LPDDR / CAMM2、邊緣裝置上的低功耗加速器,會逐漸圍繞同一件事最佳化:如何讓 2B、4B、8B 級別模型在可接受的功耗內常駐,並且支援多模態輸入。 Gemma 3n 已經明確強調per-layer parameter caching 與 MatFormer 這類降低計算與 記憶體需求的設計,代表模型架構本身也開始為終端設備重寫。未來不是只有硬體堆料 ,而是模型、量化、runtime、記憶體控制器、OS 調度一起往「本地可常駐」靠攏。 技術正在濃縮,精煉,可以說是進入真正軟硬整合的蒸餾狀態。 因此,邊緣 AI 不只會落在旗艦手機。樹莓派、FPGA、低功耗工控板,甚至各種專用 MCU + NPU 模組,都有機會承接某一層 AI 任務。這裡要分清楚:它們未必適合跑完整的 通用聊天模型,但非常適合承接「前處理、本地偵測、事件判斷、語音喚醒、OCR、簡單 代理、短上下文推理」等工作。Google AI Edge 目前已把生成式 AI、視覺、文字、音訊 都納入同一套邊緣開發敘事;而裝置端增量訓練也已經出現在官方文件中。 這代表邊緣設備未來不只是推理端,還可能具備有限度的個人化能力,也意味著統用標準 格式傳遞的出現,早期的xml,網路時代的json,或是二進位的msgpack,甚至更新的規格都 會快速出現。 如果把資金回收與實際應用放在一起看,未來最合理的投資方向,不是再追一輪只服務資 料中心的單一敘事,而是轉往終端整合。原因很簡單:終端 AI 比雲端 AI 更接近現金流 。手機、PC、車機、工業設備、醫療終端、零售裝置、安防攝影機、穿戴設備,每一個品 類都能把 AI 變成實際賣點,進而帶動晶片、記憶體、模組、作業系統、應用軟體與服務 訂閱。 雲端是必要基礎設施,但終端才是最容易把模型能力轉成大量出貨與長期黏著的地 方。這不是說資料中心不重要,而是下一輪回收率更高的競爭,很可能發生在誰能把 AI 變成「隨身、離線、低延遲、可私有化」的日常能力。這一點,Google 現在其實已經先 走了。 我的推論很直接:三年內,本地端隨身 AI 助理大規模出現,機率極高;五年內,終端裝 置的 AI 能力會像相機 ISP、神經網路引擎、5G modem 一樣,從加分項變成標配。真正 值得看的公司與產品,不會只是在資料中心買到最多 GPU 的那一批,而是能把模型壓縮 、記憶體管理、功耗控制、端雲協同與實際場景整合在一起的那一批。在老筆電和旗艦手 機上看到的體感,不是例外,而是前兆。 從模型,到服務,到裝置GOOGLE 現在這一步跟把安卓放出去是一樣.... 以我們開發者來說,終端可以應用的場景太多太多了。 但我還是會覺得會有大修正,因為目前從上到下,可以整合所有的 只有GOOGLE 他只有輸B端應用跟服務,待在業界的都知道,GOOGLE最近很用力再衝這塊 真的是不得不佩服老巴跟他的團隊..... -- WHY SO SERIOUS??? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.142.99 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1775493425.A.D22.html

04/07 00:38, 1小時前 , 1F
可以請AI幫我總結10字以內嗎
04/07 00:38, 1F
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:39:52 賣掉其他六巨頭,等崩盤後全力買GOOGLE 台灣就買可以拿到他代工的跟GG ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:40:47

04/07 00:41, 1小時前 , 2F
內文都在講google 但語氣卻是chatgpt
04/07 00:41, 2F

04/07 00:42, 1小時前 , 3F
PC黃金時代再錄音?
04/07 00:42, 3F

04/07 00:42, 1小時前 , 4F
再臨
04/07 00:42, 4F

04/07 00:44, 1小時前 , 5F
google最近很勤勞啊,不是還大力推薦自家若有老電
04/07 00:44, 5F

04/07 00:44, 1小時前 , 6F
腦,可以改用chrome os再戰幾年
04/07 00:44, 6F

04/07 00:45, 1小時前 , 7F
記憶體又要缺貨了
04/07 00:45, 7F

04/07 00:46, 1小時前 , 8F
歐印GGLL最快
04/07 00:46, 8F

04/07 00:47, 1小時前 , 9F
這樣機器人會先飛天吧
04/07 00:47, 9F
基本上用一個還可以得有NPU的旗艦機可以寫app 來拓展的話 或著pi系列 做核心不難,難的是電機持久度,跟瞬時反應

04/07 00:49, 1小時前 , 10F
總結 歐印GOOGLE
04/07 00:49, 10F

04/07 00:49, 1小時前 , 11F
好,買GOOX
04/07 00:49, 11F
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 00:50:57

04/07 00:52, 1小時前 , 12F
有終端機器人嗎
04/07 00:52, 12F

04/07 00:53, 1小時前 , 13F
可以請AI告訴我明天要買漲還是買跌嘛
04/07 00:53, 13F

04/07 00:53, 1小時前 , 14F
問題是壹般人還是不知道ai除了能看廢片能幹嘛
04/07 00:53, 14F

04/07 00:54, 1小時前 , 15F
總結就是google是神要歐印
04/07 00:54, 15F

04/07 00:55, 1小時前 , 16F
照AI社群的開發熱情 所有的可能性都會比預測的快吧
04/07 00:55, 16F

04/07 01:00, 1小時前 , 17F
可以離線畫色圖吃到飽的意思嗎?(興奮
04/07 01:00, 17F
生成圖還要一下下 擴散模型比較麻煩

04/07 01:01, 1小時前 , 18F
又是AI生成的文章
04/07 01:01, 18F
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:02:38

04/07 01:06, 1小時前 , 19F
夢裏都有,成本不是消失是轉嫁到其他費用
04/07 01:06, 19F

04/07 01:06, 1小時前 , 20F
google要漲了嗎,好像沒...
04/07 01:06, 20F

04/07 01:07, 1小時前 , 21F
如果你理解AI 架構,就不會寫出這種結論
04/07 01:07, 21F
純推論應該還好 終端版本跟OS一樣持續更新釋出就好

04/07 01:08, 1小時前 , 22F
可以考慮一下GPU+WEKA/VAST 只能說都還未必誰贏 但
04/07 01:08, 22F

04/07 01:08, 1小時前 , 23F
餅越來越大是一定
04/07 01:08, 23F

04/07 01:09, 1小時前 , 24F
終端應用,尤其手持產品的天敵就是耗電量
04/07 01:09, 24F
(鼓掌 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:11:29

04/07 01:12, 1小時前 , 25F
下一個問題則是權限,誰會喜歡背景程式吃掉一大堆
04/07 01:12, 25F

04/07 01:12, 1小時前 , 26F
資源,跟BT下載不會給手持3C一樣概念
04/07 01:12, 26F
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:17:01

04/07 01:15, 1小時前 , 27F
想太多了 終究只是個chatbot
04/07 01:15, 27F
openclaw可以做到的,我都可以開發後在手機上做到一樣的事情,光是Google AI edge garlley就開放了下面這些給你體驗了 https://i.mopix.cc/1cdBfD.jpg
連控制裝置都有 介接local api就好 ※ 編輯: neo5277 (42.71.96.172 臺灣), 04/07/2026 01:21:49

04/07 01:29, 1小時前 , 28F
第一天就載了 以一般消費者能裝的版本 基本沒屁用
04/07 01:29, 28F

04/07 01:29, 1小時前 , 29F
又不是人人標配5090 就算是5090 模型也跟腦殘一樣
04/07 01:29, 29F
這跟5090沒有關係啊 光是 s24u 也滿普通的

04/07 01:29, 1小時前 , 30F
更別說agent功能 想太多 再等5年
04/07 01:29, 30F

04/07 01:30, 1小時前 , 31F
推論的基礎是背後的參考資料,你無法帶著龐大的資
04/07 01:30, 31F

04/07 01:30, 1小時前 , 32F
料落地,那就是假像而已
04/07 01:30, 32F
蒸餾跟微調剪枝以後的slm完全就是本體 ....哪裡需要什麼參考資料,這跟RAG不一樣 這是已經訓練好,蒸餾各種功能的模型 ,你不會在手機上做微調的,手機上要實作 RAG也不會難,以我這支手機512g的硬碟空間可以放專屬的KM了,終端場景需要什麼龐大 的資料,還是沒有辦法想像,最多做個即時聯網或是連網的資料存取api透過網路加載 跟google地圖一樣而已.... ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:39:32

04/07 01:37, 59分鐘前 , 33F
5090跑31B VRAM還不夠用 掛OLLAMA要64G
04/07 01:37, 33F

04/07 01:37, 59分鐘前 , 34F
26B效果倒是真的不錯回應又快
04/07 01:37, 34F
70%的商業應用場景其實不需要模型的多數能力啊,這點終端上本來有的能力結合起來這 個AI核心就好了。

04/07 01:37, 59分鐘前 , 35F
浪費時間寫那麼多廢話幹嘛?
04/07 01:37, 35F
因為玩的滿興奮的 ※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 01:41:56

04/07 01:40, 56分鐘前 , 36F
續航力問題沒辦法解決講再多你也只是空談
04/07 01:40, 36F

04/07 01:48, 48分鐘前 , 37F
有消息稱google的演算法是抄襲某研究生,而研究生
04/07 01:48, 37F

04/07 01:48, 48分鐘前 , 38F
的演算法是開源的
04/07 01:48, 38F

04/07 01:48, 48分鐘前 , 39F
Rabbit
04/07 01:48, 39F

04/07 01:48, 48分鐘前 , 40F
RabitQ
04/07 01:48, 40F

04/07 01:49, 47分鐘前 , 41F
不要離題了,模型蒸餾目的是節省算力成本,這不代
04/07 01:49, 41F

04/07 01:49, 47分鐘前 , 42F
表著可以用低成本建置地端的AI ,知識蒸餾只是走了
04/07 01:49, 42F

04/07 01:49, 47分鐘前 , 43F
捷徑並不是捨去成本
04/07 01:49, 43F

04/07 01:52, 44分鐘前 , 44F
MTK:
04/07 01:52, 44F

04/07 02:00, 36分鐘前 , 45F
實際測試過 小模型沒多大屁用 直接用線上AI就可以
04/07 02:00, 45F

04/07 02:01, 35分鐘前 , 46F
真的要辦公 還是需要PC 唯一重點是記憶體真的被錯殺
04/07 02:01, 46F

04/07 02:03, 33分鐘前 , 47F
整天吹 所以發布會的即時翻譯什麼時後能做好
04/07 02:03, 47F

04/07 02:04, 32分鐘前 , 48F
為何會提到蒸餾?谷歌這技術跟edge 端AI 跟蒸餾完
04/07 02:04, 48F

04/07 02:04, 32分鐘前 , 49F
全沒有關係,簡單說就是模型小到能在edge 執行,效
04/07 02:04, 49F

04/07 02:04, 32分鐘前 , 50F
能又超強,跟蒸餾無關
04/07 02:04, 50F
前兩代都是蒸餾的啊... 都是從teacher學習部分能力啊..

04/07 02:06, 30分鐘前 , 51F
結論就是 需要很多很多的記憶體
04/07 02:06, 51F

04/07 02:06, 30分鐘前 , 52F
記憶卡蛙團結強大 一張不賣
04/07 02:06, 52F
※ 編輯: neo5277 (1.162.142.99 臺灣), 04/07/2026 02:08:53
文章代碼(AID): #1fq-4nqY (Stock)
文章代碼(AID): #1fq-4nqY (Stock)