Re: [新聞] 華為 AI 晶片良率僅 20%,中國科技企業被迫接受輝達降規版已刪文
※ 引述《Su22 (裝配匠)》之銘言:
: 原文標題:華為 AI 晶片良率僅 20%,中國科技企業被迫接受輝達降規版
: ※請勿刪減原文標題
: 原文連結:https://reurl.cc/kOzRa9
: ※網址超過一行過長請用縮網址工具
: 發布時間: 2024 年 07 月 04 日 14:50
: ※請以原文網頁/報紙之發布時間為準
: 記者署名: Atkinson
: ※原文無記載者得留空
: 原文內容:
: Wccftech 報導,中國科技大廠無法接受華為 AI 晶片供應,難有足夠 AI 晶片,使輝達
: 特為中國市場設計的降規版 AI 晶片銷量終於有提升。
: 報導引用大摩報告,輝達 AI 晶片開始吸引百度、阿里巴巴、騰訊和字節跳動等中國科技
: 公司青睞,使中國市場起飛。也因為中國企業開始大量訂購輝達降規版 H20 晶片,為輝
: 達再次鞏固中國市場提供機會。
: 美國嚴厲制裁中國 AI 市場,輝達一向為限制名單的頭號廠商。中國企業將現在情況視為
: 契機,華為積極發展 AI 晶片昇騰 (Ascend)910B 時,可能搶攻輝達中國市占率,達成
: 中國 AI 晶片自主目的。
: 但華為 AI 晶片技術不佳,使輝達降規版 H20 晶片又受中國科技公司歡迎。華為 AI 晶
: 片確實受關注,但產線無法應付龐大訂單,加上良率只有 20% 左右,又因美國制裁,良
: 率更難提升,使輝達降規版 AI 晶片受青睞。
: 儘管輝達 H20 晶片性能遠不如 H100,但中國科技公司沒有其他選擇,拿不到 H100 晶片
: ,還是必須用降規版。市場轉向雖影響華為進軍 AI 晶片進度,但未被滿足的中國市場,
: 或會成為輝達營運大幅成長的動能。
: 心得/評論:
: 華為晶片還是不敵輝達,而且還是不敵降規版的輝達
: 使得中國企業不得不接受現實
: 只能開始大量訂購輝達降規版H20晶片
: 對輝達而言應該是利多
: 為NVDA股價增添上漲的動能
: ※必需填寫滿30正體中文字,無意義者板規處分
週末閒聊,
昇騰 (Ascend)是由兩個design IP合起來的SoC,
一個是CPU, 一個是NPU,
CPU 是自研的ARM64 泰山核,
這是一顆十年前設計的CPU,
最高可以到64 核心,
NPU 是自研的達文西 NPU,
這顆是八九年前設計的,
原本昇騰瞄準的目標不是A100,
而是A100的前一代,
因為當時還沒有A100
當然這麼多年過去了,
設計總會有進步,
所以才會有910的下一代910B,
但是很遺憾的,
原本的設計團隊已經在2018年貿易戰的時候解散,
所以910B 只是在原本的設計與架構之下做改進,
沒有整個設計與架構的重新設計的前提,
效能的提升有限也有瓶頸,
這樣說好了, 你有看過8051能夠改進成打敗x86_64嗎?
再來說說良率這件事情,
如果同樣的代工廠同樣的製程,
在別的晶片都有較高的良率,
比方說一般的麒麟晶片良率五成到六成,
就只有這顆昇騰晶片良率只有兩成不到,
相信我, 這是IC設計出了問題,
不是代工製成端的問題,
這對台灣是好消息也是壞消息,
好消息就是這顆昇騰被改壞了,
壞消息是中共的晶圓代工沒有那麼差
再來說說設計出問題導致良率不到兩成的原因,
我的職業生涯曾經遇到過幾次這種非常嚴重的問題,
後來都被我抓到問題解決,
case 1: 晶片面積過大 => 無解
case 2: xxx 商業機密不能說 => 換了新的 xxx 就解決了,
我因為抓到並解解決這個問題,
得到我現在公司的第一個研發大獎
case 3: 塞太多邏輯在同一個pipe =>
這個最難抓, 因為大部分時候都沒問題,
只有在大量工作跑pipeline的時候,
上個pipe 跟下個pipe 的資料出錯,
簡單說就是data hazard,
課本裡頭的標準例子,
但是現實中的各種變形例子與特殊狀況一大堆,
只有非常特殊的情況才會發生,
十幾年前我跟我的前輩在實驗室裡頭花了兩三個月在test chip抓出問題
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 12.205.53.66 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1720243505.A.B37.html
推
07/06 13:34,
3月前
, 1F
07/06 13:34, 1F
推
07/06 13:37,
3月前
, 2F
07/06 13:37, 2F
推
07/06 13:38,
3月前
, 3F
07/06 13:38, 3F
推
07/06 13:42,
3月前
, 4F
07/06 13:42, 4F
推
07/06 13:47,
3月前
, 5F
07/06 13:47, 5F
推
07/06 13:48,
3月前
, 6F
07/06 13:48, 6F
→
07/06 13:48,
3月前
, 7F
07/06 13:48, 7F
→
07/06 13:48,
3月前
, 8F
07/06 13:48, 8F
→
07/06 13:48,
3月前
, 9F
07/06 13:48, 9F
→
07/06 13:48,
3月前
, 10F
07/06 13:48, 10F
→
07/06 13:50,
3月前
, 11F
07/06 13:50, 11F
推
07/06 13:52,
3月前
, 12F
07/06 13:52, 12F
→
07/06 13:52,
3月前
, 13F
07/06 13:52, 13F
→
07/06 13:54,
3月前
, 14F
07/06 13:54, 14F
→
07/06 13:54,
3月前
, 15F
07/06 13:54, 15F
推
07/06 13:55,
3月前
, 16F
07/06 13:55, 16F
推
07/06 13:55,
3月前
, 17F
07/06 13:55, 17F
推
07/06 13:55,
3月前
, 18F
07/06 13:55, 18F
→
07/06 13:55,
3月前
, 19F
07/06 13:55, 19F
→
07/06 13:56,
3月前
, 20F
07/06 13:56, 20F
→
07/06 13:57,
3月前
, 21F
07/06 13:57, 21F
→
07/06 13:57,
3月前
, 22F
07/06 13:57, 22F
→
07/06 13:57,
3月前
, 23F
07/06 13:57, 23F
面積問題有業界標準解法: 降頻, 閹功能
比方說把產品分成5,7,9 三類,
完全沒問題的是9 lv 產品,
頻寬跑快會掛的是7 lv 產品, 降頻賣,
有嚴重瑕疵的比方說cache or cpu or npu掛一顆 => 3 lv 產品,
少cpu 少npu,
讚
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 14:03:22
推
07/06 14:02,
3月前
, 24F
07/06 14:02, 24F
推
07/06 14:03,
3月前
, 25F
07/06 14:03, 25F
推
07/06 14:19,
3月前
, 26F
07/06 14:19, 26F
→
07/06 14:34,
3月前
, 27F
07/06 14:34, 27F
→
07/06 14:37,
3月前
, 28F
07/06 14:37, 28F
→
07/06 14:37,
3月前
, 29F
07/06 14:37, 29F
推
07/06 14:38,
3月前
, 30F
07/06 14:38, 30F
→
07/06 14:54,
3月前
, 31F
07/06 14:54, 31F
→
07/06 14:55,
3月前
, 32F
07/06 14:55, 32F
推
07/06 14:58,
3月前
, 33F
07/06 14:58, 33F
推
07/06 15:00,
3月前
, 34F
07/06 15:00, 34F
噓
07/06 15:05,
3月前
, 35F
07/06 15:05, 35F
推
07/06 15:07,
3月前
, 36F
07/06 15:07, 36F
→
07/06 15:08,
3月前
, 37F
07/06 15:08, 37F
→
07/06 15:08,
3月前
, 38F
07/06 15:08, 38F
推
07/06 15:09,
3月前
, 39F
07/06 15:09, 39F
→
07/06 15:10,
3月前
, 40F
07/06 15:10, 40F
→
07/06 15:10,
3月前
, 41F
07/06 15:10, 41F
噓
07/06 15:16,
3月前
, 42F
07/06 15:16, 42F
我知道你們非常希望我中年失業去開uber,
的確我曾經被搞到去開uber,
但是我現在還在業界,
我其中一個故事發生在兩年前,
得到AI研發大獎
現在做的東西雖然沒有跟IC設計有直接關係,
但是我現在做的東西感覺還蠻有趣的就是了
推
07/06 15:19,
3月前
, 43F
07/06 15:19, 43F
一般代工廠會有自己的一套驗證系統,
但是客戶端會再提供幾套functional 驗證測試,
尤其做CPU/AI 晶片,
常常是晶片能夠跑,
但是結果怪怪的,
這種情況下代工廠沒有能力能驗出來,
他們只能驗出亮燈跟不亮燈,
至於1+1 等於2 或3, 代工廠並不知道
只有客戶端才會知道,
所以代工廠會再提供額外幾套測試
→
07/06 15:27,
3月前
, 44F
07/06 15:27, 44F
→
07/06 15:27,
3月前
, 45F
07/06 15:27, 45F
→
07/06 15:28,
3月前
, 46F
07/06 15:28, 46F
→
07/06 15:28,
3月前
, 47F
07/06 15:28, 47F
你的架構圖裡頭,
泰山 = Taishan = CPU
達文西 = Da Vinci = NPU
我提出三種我遇到的設計導致良率出大問題的情況, 哪裡錯了?
910b又不是我設計的, 我哪裡知道是哪裡被改壞了?
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 15:30:01
→
07/06 15:29,
3月前
, 48F
07/06 15:29, 48F
910 當年在台積電生產的時候沒有良率的問題,
至少沒有不到兩成的良率,
所以我猜設計出問題
如果910b 比910的面積大,
導致良率大幅下降, 請去讀算盤本, 不要我來教你,
那就是設計壞了, 把面積變大到良率崩潰
如果910b 跟 910 面積一樣大,
但是良率大幅下降,
那可能是中芯的製程出問題, 或是910b 設計出問題,
但是就像我說的,
麒麟新晶片用中芯相同的製程, 並沒有兩成的良率,
很像是五成上下的良率,
所以910b 設計出問題的可能性更大
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 15:39:43
推
07/06 15:37,
3月前
, 49F
07/06 15:37, 49F
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 15:45:19
推
07/06 15:47,
3月前
, 50F
07/06 15:47, 50F
推
07/06 15:49,
3月前
, 51F
07/06 15:49, 51F
→
07/06 15:54,
3月前
, 52F
07/06 15:54, 52F
推
07/06 15:55,
3月前
, 53F
07/06 15:55, 53F
→
07/06 15:55,
3月前
, 54F
07/06 15:55, 54F
這種良率是非常誇張非常反常,
我職業生涯沒遇過這麼低的良率,
再拿910在台積電的良率一比,
這個很可能是設計問題
如果你要拿中芯的麒麟五成良率來比較,
的確910b 更大的面積會有更差的良率,
但是我不認為完全相同的工廠與製程會從五成掉到兩成不到,
即使910b 的面積比麒麟大,
我從前做過超大面積的晶片,
良率沒有差別到這麼大,
尤其你可以用降頻與閹割某些出錯的CPU/NPU
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 16:01:51
→
07/06 15:57,
3月前
, 55F
07/06 15:57, 55F
推
07/06 15:59,
3月前
, 56F
07/06 15:59, 56F
推
07/06 16:00,
3月前
, 57F
07/06 16:00, 57F
※ 編輯: waitrop (12.205.53.66 美國), 07/06/2024 16:08:10
推
07/06 16:07,
3月前
, 58F
07/06 16:07, 58F
→
07/06 16:18,
3月前
, 59F
07/06 16:18, 59F
→
07/06 16:18,
3月前
, 60F
07/06 16:18, 60F
→
07/06 16:20,
3月前
, 61F
07/06 16:20, 61F
→
07/06 16:20,
3月前
, 62F
07/06 16:20, 62F
討論串 (同標題文章)
Stock 近期熱門文章
9
15
54
108
PTT職涯區 即時熱門文章
51
175