Re: [新聞] 日本AI研究第一人這樣評價Deepseek

看板Stock (股票)作者 (回來囉)時間4天前 (2025/02/16 11:12), 4天前編輯推噓26(6034331)
留言425則, 73人參與, 2天前最新討論串3/6 (看更多)
三民治以及蟾蜍網紅 很喜歡用北一女筆記這個比喻去打DS 應該是當時候收錢 給的文案就是這樣寫的吧 但是對AI有一點概念的人 看了真的覺得在瞧不起人民智商 根本是在亂噴 對AI有興趣的 強烈推薦台大李宏毅老師的頻道 https://youtu.be/cCpErV7To2o?si=fhemvtkydilYOMwt
https://youtu.be/Q9cNkUPXUB8?si=Sb2uv6f1KWu1XnlC
https://youtu.be/v12IKvF6Cj8?si=KBFxIZn6KfNDNQoR
簡單來說 AI的成形分三階段 比較好的比喻是 第一階段是生一個小朋友(pretrain) 第二階段是讓他學校上課學習(督導式學習) 第三階段則是對這位小朋友的回答提供反饋(RLHF), 告訴他哪一個回答比較好 很明顯第一步要生出小朋友是比較困難的 要花很多的資源去train一個模型 打造他的樣子 捏他的臉型 膚色 外型比例之類的 這也是為什麼OpenAI 和meta花了這麼多錢的原因 而台灣乃至美國的學校所謂的發展AI 大部分都是拿這些Meta開源的模型(小朋友) 去用他們自己的資料去微調參數 有點像是讓這些Meta生的小朋友 去不同學校上課 培養出不同個性和學識的小朋友 這個就相當簡單 簡單到幾個禮拜就可以做完 也不用花什麼錢 所以當你看到新聞 說什麼哪個學校或哪個機構發展自己的AI 花的時間少 成本還很低 你可以看看就好 沒什麼稀奇的 而 Deepseek 呢? 他是和那些學校和機構一樣 拿別人已經生出來的小朋友去上學 就說自己發展出AI了嗎? 人家可不是這樣 他跟OpenAI 和Meta一樣 都是從頭開始 自己捏出一個自己的小朋友 生出這個小朋友的成本還極低 而且在運作時 這位小朋友消耗的能量也少 生的時候花的力氣少 生出來後吃的東西也少 這是什麼神仙寶寶 這才是各界震驚的原因 Deepseek的確是讓人類在AI發展邁進一大步 並不是三民治在那邊造謠就可以抹滅 有良知的媒體和政府 應該讓人民認知我們自己目前的不足 然後砥礪大家前進 而不是拿一塊布把大家眼睛遮住 一直騙說別人只是作弊 我們沒有很差 把時間浪費在造謠和口水 倒不如把時間花在了解和學習 人家跑在前面又怎樣 努力跟上去就有機會反超 而不是自欺欺人 導致永遠地落後 ----------------- 附上懶人包 簡單介紹AI成形三階段 再次感謝李宏毅老師的貢獻 http://i.imgur.com/6KO6GvX.jpg
※引述《netflix06 (OK )》之銘言: : 我的理解啦~ : 這就好像一個北一女的筆記本出售, : 有人去讀那個筆記, : 可以在考試上接近不錯的分數, : 後來又再出售自己的筆記,賣得很便宜, : 然後呢讀書方法這種事真的還是講興趣跟天份的吧, : 有興趣的話,可以融會貫通, : 跨領域聯想,可以一直舉一反三, : 再來,也有底蘊底氣的不同, : 西方國家如果做比喻的話就像三代文人家族, : 從祖父開始是哪裡的狀元在哪裡當官, : 有什麼門生人脈再到父輩; : 然後中國就像寒窗苦讀, : 不是鬥不起, : 是資源掌握跟運用的問題, : 幾十幾百個寒窗苦讀的人, : 讓他們都考上狀元榜眼探花舉人秀才, : 全部加起來,也很難比過三代文人望族世家貴族階層; : (例如被限制取得先進光刻機) : 再來,個性決定命運, : 這話也能套用在國家民族特性, : 如果將美國跟中國各看成一個人, : 一個是擅長創新而且鼓勵自由發展, : 一個是偷竊邀功欺上瞞下,鼓勵不公平競爭個性的人, : 這兩個人會有什麼發展,其實不難推斷, : 回到現實面,科技的發展取決於晶片, : 晶片的IC設計-美國矽谷跟以色列最強, : 晶片的製造-先進製程-台灣台積電最強, : 目前deepSeek 就像剛剛舉例抄筆記, : 可以達到AI運算, : 但是實際比較運算能力跟速度, : DeepSeek 還是比不上chatgpt. : DeepSeek 對比 chatgpt : 就像比亞迪追趕特斯拉,每當追上了硬體或軟體, : 特斯拉又去研究新的領域, : 無人駕駛技術或機器人發展或太空領域探索。 : ※ 引述《anti87 (天機老和尚)》之銘言 : : 原文標題:日本AI研究第一人這樣評價Deepseek : : 原文連結:https://reurl.cc/5DxgVR : : 發布時間:2025/02/13 : : 記者署名:徐潮、鈴木健二朗、岩澤明信 : : 原文內容: : : 中國初創企業DeepSeek(深度求索)開發的高性能、低成本生成式AI(人工智慧)大規模 : : 語言模型(LLM)受到了全世界的關注。日本經濟新聞(中文版:日經中文網)就如何評 : : 價該公司的最新AI模型、安全性方面的風險、以及對日本企業的影響等問題,採訪了日本 : : AI研究領域的第一人、東京大學教授松尾豐。 : : 性能與美國OpenAI接近 : : 記者:您如何評價DeepSeek的技術? : : 松尾豐:技術很出色,性能與運營「ChatGPT」的美國OpenAI接近。(DeepSeek) : : 每次發佈新的AI模型,都會發表論文,詳細説明模型採用了什麼樣的技術,以及花費心思 : : 實施的改進之處。 : : 該公司還同時以(任何人都可使用的)開源方式進行公開。1月發佈的最新模型「 : : R1」進行了提升推理能力的強化學習。最終展現出了與OpenAI的「o1」同等的推理性能。 : : 在中國,AI開發十分活躍,孕育實力企業的環境不斷擴大(DeepSeek的APP界面,REUTERS : : ) : : 記者:在AI開發方面,美國一直處於領先地位。競爭的勢力格局是否會發生變化? : : 松尾豐:作為大前提,中國的AI水準相當高,可以與美國比肩。至少從頂尖(學會 : : 採納的)論文數量來看,中國已經超過美國。 : : 另外,中國還有阿里巴巴、騰訊、百度等其他很多實力強勁的企業,擁有眾多優秀 : : 原文標題:日本AI研究第一人這樣評價Deepseek : : 原文連結:https://reurl.cc/5DxgVR : : 發布時間:2025/02/13 : : 記者署名:徐潮、鈴木健二朗、岩澤明信 : : 原文內容: : : 中國初創企業DeepSeek(深度求索)開發的高性能、低成本生成式AI(人工智慧)大規模 : : 語言模型(LLM)受到了全世界的關注。日本經濟新聞(中文版:日經中文網)就如何評 : : 價該公司的最新AI模型、安全性方面的風險、以及對日本企業的影響等問題,採訪了日本 : : AI研究領域的第一人、東京大學教授松尾豐。 : : 性能與美國OpenAI接近 : : 記者:您如何評價DeepSeek的技術? : : 松尾豐:技術很出色,性能與運營「ChatGPT」的美國OpenAI接近。(DeepSeek) : : 每次發佈新的AI模型,都會發表論文,詳細説明模型採用了什麼樣的技術,以及花費心思 : : 實施的改進之處。 : : 該公司還同時以(任何人都可使用的)開源方式進行公開。1月發佈的最新模型「 : : R1」進行了提升推理能力的強化學習。最終展現出了與OpenAI的「o1」同等的推理性能。 : : 在中國,AI開發十分活躍,孕育實力企業的環境不斷擴大(DeepSeek的APP界面,REUTERS : : ) : : 記者:在AI開發方面,美國一直處於領先地位。競爭的勢力格局是否會發生變化? : : 松尾豐:作為大前提,中國的AI水準相當高,可以與美國比肩。至少從頂尖(學會 : : 採納的)論文數量來看,中國已經超過美國。 : : 另外,中國還有阿里巴巴、騰訊、百度等其他很多實力強勁的企業,擁有眾多優秀 : : 工程師。在這樣的生態系統中,AI不斷得到開發與應用。出現DeepSeek這樣極具實力的企 : : 業,並不令人驚訝。 : : 對日本企業來説也是一種鼓舞 : : 記者:您如何看待DeepSeek的出現對日本産生的影響? : : 松尾豐:日本也需要努力開發生成式AI模型。像DeepSeek這樣並非大型科技企業、 : : 也沒有雄厚資本的公司,竟然能夠實現世界最先進的精度,這對日本的初創企業來説也是 : : 一種鼓舞。即便在日本國內,只要紮實地進行技術開發,就有可能實現這樣的飛躍。 : : 很多日本的AI初創企業從松尾教授的研究室誕生(2024年10月攝) : : 記者:您如何看待像DeepSeek這樣的企業採取開源戰略的動向? : : 松尾豐:最初採取開源戰略的企業是美國Meta,該公司推出了「Llama」。後來, : : 中國阿里巴巴推出了性能非常高的模型「Qwen(通義千問)」。在日本,基於這兩家企業 : : 的模型進行追加學習的動向也十分活躍。如果基礎模型紮實,就能輕鬆提升性能。 : : 不過,開源強大,還是OpenAI及美國谷歌這樣的非公開系統強大,競爭始終存在 : : 。哪一方勝出會因狀況而變。 : : 這次DeepSeek的出現,使得開源方面的勢力得到了很大的恢復。雖然OpenAI及谷 : : 歌擁有性能卓越的非公開模型,但這表明開源也能夠做到同樣的事情。 : : 安全風險因使用方式而異 : : 美國OpenAI在應對DeepSeek的崛起(首席執行官薩姆· 阿爾特曼,REUTERS) : : 記者:對於利用現有AI模型輸出的數據來創建新的生成AI的DeepSeek的「蒸餾」技 : : 術,OpenAI指出這種做法違規。 : : 松尾豐:我不知道情況的真假。在美國企業之間,這樣的傳聞非常常見。這次也可 : : 能涉及(中美的)政治含義。 : : 記者:您如何看待使用中的安全等風險? : : 松尾豐:是利用DeepSeek的開源還是使用其服務?根據使用方式的不同,風險也不 : : 同。開源可以下載程式並在本地運作。這樣的話,數據不可能被發送到某個地方。 : : 另一方面,DeepSeek的APP服務在中國的伺服器上運作。一旦輸入數據,這些數據 : : 就會發送到中國的伺服器,在中國進行處理並返回。雖然表示不使用這些數據進行學習, : : 但實際上並不排除使用的可能性。 : : 這點不管對於DeepSeek還是OpenAI來説都一樣。這是一個你對對方投以多大信任的 : : 問題。 : : 記者:圍繞AI的智慧財産權和資訊洩露問題,中美間的對立似乎還會加劇。 : : 松尾豐:美國(海軍和某些州)提出不要使用DeepSeek。但從研究者的角度來看, : : 我並不認為DeepSeek做了什麼特別的事情。相反,我認為他們只是在好好搞技術並將其發 : : 佈。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.127.23 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1739675543.A.6DA.html

02/16 11:17, 4天前 , 1F
清晰的比喻
02/16 11:17, 1F

02/16 11:23, 4天前 , 2F
好奇如果是自己生出來的 怎麼會回答我是chatgpt?
02/16 11:23, 2F

02/16 11:23, 4天前 , 3F
還是其實也是被黑的XD
02/16 11:23, 3F

02/16 11:27, 4天前 , 4F
因為第三塊啊 合成數據原因RLHF用RL取代=_=...
02/16 11:27, 4F

02/16 11:30, 4天前 , 5F
因為"我是誰"是哲學問題,現在AI還只能靠人餵的資料
02/16 11:30, 5F

02/16 11:30, 4天前 , 6F
去認知自己。
02/16 11:30, 6F

02/16 11:30, 4天前 , 7F
Deepseek也是用別人模型蒸餾出來的好嗎= =
02/16 11:30, 7F

02/16 11:33, 4天前 , 8F
看別人教材自己編講義有什麼問題嗎? 至少學習方法跟
02/16 11:33, 8F

02/16 11:34, 4天前 , 9F
推臺大李宏毅老師
02/16 11:34, 9F

02/16 11:34, 4天前 , 10F
講義編法有改良進步啊!
02/16 11:34, 10F

02/16 11:37, 4天前 , 11F
起手勢就扯政治,證明這種廢文就沒可信度
02/16 11:37, 11F

02/16 11:37, 4天前 , 12F
對於有這種立場的帳號,當廢話聽聽
02/16 11:37, 12F

02/16 11:37, 4天前 , 13F
DS一個重點就是證明第二階段不重要,之前花一堆力
02/16 11:37, 13F

02/16 11:37, 4天前 , 14F
氣在那邊人工做教材教,結果發現AI自己就能通了
02/16 11:37, 14F

02/16 11:38, 4天前 , 15F
去政黑
02/16 11:38, 15F

02/16 11:38, 4天前 , 16F
DS如果不是中國發布,大概就不會有人扯政治了
02/16 11:38, 16F

02/16 11:38, 4天前 , 17F
DeepSeek v3並不是蒸餾 好奇的是training data來源
02/16 11:38, 17F

02/16 11:39, 4天前 , 18F
樓樓樓樓上 你認真=_=?
02/16 11:39, 18F

02/16 11:40, 4天前 , 19F
第三方的open deepseek 搞出自己版本的合成數據了
02/16 11:40, 19F

02/16 11:40, 4天前 , 20F
現在一堆人殺入如何設計用大模型生數據創造思考
02/16 11:40, 20F

02/16 11:40, 4天前 , 21F
ai真他x捲 今天我看到paper已經提到關鍵是structure
02/16 11:40, 21F

02/16 11:41, 4天前 , 22F
很懷疑就去了解別人的論文 很難?
02/16 11:41, 22F

02/16 11:46, 4天前 , 23F
說真的很感慨啦 尤其是唐鳳沾沾自喜繞過64議題
02/16 11:46, 23F

02/16 11:47, 4天前 , 24F
台灣什麼時候變得這麼沉淪 我們應該趕快發展AI
02/16 11:47, 24F

02/16 11:47, 4天前 , 25F
而不是阿Q心態說這又沒多強
02/16 11:47, 25F

02/16 11:47, 4天前 , 26F
羨慕中國研發能力強大 反觀
02/16 11:47, 26F

02/16 11:48, 4天前 , 27F
@@ 買個4090 實作一下 就很有快感啊 去摸摸比吵架好
02/16 11:48, 27F

02/16 11:49, 4天前 , 28F
deepseek 現在問第二次就死,答案還一直幻覺,這東
02/16 11:49, 28F

02/16 11:49, 4天前 , 29F
西早就沒用了。我現在只想等這個月gpt5 和claude4
02/16 11:49, 29F

02/16 11:49, 4天前 , 30F
付好費等他更新
02/16 11:49, 30F

02/16 11:51, 4天前 , 31F
我只能說用過deepseek 後,真的沒想像中的好用,控
02/16 11:51, 31F

02/16 11:51, 4天前 , 32F
制力真的還不能拿來應用在各種場域中
02/16 11:51, 32F

02/16 11:54, 4天前 , 33F
我觀察這邊deepseek吹的問題,不是生活或工作幾乎沒
02/16 11:54, 33F

02/16 11:54, 4天前 , 34F
真的使用過ai,就是連deepseek都沒打開來用過只看新
02/16 11:54, 34F

02/16 11:54, 4天前 , 35F
聞,實際要用,gpt claude才是最好的工具,不是deep
02/16 11:54, 35F

02/16 11:54, 4天前 , 36F
seek這垃圾==
02/16 11:54, 36F

02/16 11:54, 4天前 , 37F
DS強項是便宜好嗎
02/16 11:54, 37F

02/16 11:55, 4天前 , 38F
沒有你腦補這些
02/16 11:55, 38F

02/16 11:56, 4天前 , 39F
而且DS並沒有那麼神,會震驚一方面是他從中國來
02/16 11:56, 39F
還有 346 則推文
還有 1 段內文
02/16 17:41, 4天前 , 386F
我斑願稱你為體術第一人
02/16 17:41, 386F

02/16 18:07, 4天前 , 387F
還要拿台大教授來背書…教授知道嗎?這邊不是八卦
02/16 18:07, 387F

02/16 18:07, 4天前 , 388F
02/16 18:07, 388F

02/16 18:15, 4天前 , 389F
笑死
02/16 18:15, 389F

02/16 18:19, 4天前 , 390F
走水溝反超,棒棒的。
02/16 18:19, 390F

02/16 18:31, 4天前 , 391F
看來很多人V3和R1傻傻分不清楚
02/16 18:31, 391F

02/16 18:44, 4天前 , 392F
買個5090實作一下 很好用的
02/16 18:44, 392F

02/16 19:38, 4天前 , 393F
很厲害
02/16 19:38, 393F

02/16 19:44, 4天前 , 394F
de開源被檢視
02/16 19:44, 394F

02/16 19:47, 4天前 , 395F
你當大家都沒出過社會?會被你這個震住?
02/16 19:47, 395F

02/16 19:47, 4天前 , 396F
拿台大來震壓社會人士?
02/16 19:47, 396F

02/16 19:47, 4天前 , 397F
你不要丟臉了
02/16 19:47, 397F

02/16 20:45, 4天前 , 398F
我只能說deepseek很多人吹,結果用起來沒那麼強,這
02/16 20:45, 398F

02/16 20:45, 4天前 , 399F
才是重點,第二次開始繁忙,回答這麼跳,最後要解問
02/16 20:45, 399F

02/16 20:46, 4天前 , 400F
題還是用gpt claude ,最強ai? 這跟中國人滿腦子自
02/16 20:46, 400F

02/16 20:46, 4天前 , 401F
己超越美國,但數據一攤開美國不知道輸了哪,這種洗
02/16 20:46, 401F

02/16 20:46, 4天前 , 402F
腦法真的看了讓人覺得相當弱智
02/16 20:46, 402F

02/16 20:57, 4天前 , 403F
推個
02/16 20:57, 403F

02/16 21:00, 4天前 , 404F
講強弱的從頭到尾搞錯重點 重點在成本好嗎 唉
02/16 21:00, 404F

02/16 23:03, 4天前 , 405F
伺服器繁忙正常 他就不是要靠這賺錢 還是有其他家DS
02/16 23:03, 405F

02/16 23:04, 4天前 , 406F
的服務 Azure目前免費 中國也一堆公司DS限免 perple
02/16 23:04, 406F

02/16 23:04, 4天前 , 407F
xity付費也能用
02/16 23:04, 407F

02/16 23:06, 4天前 , 408F
排名就擺在那 livebench第三 chatbotarena第四
02/16 23:06, 408F

02/16 23:08, 4天前 , 409F
然後我記得R1不搞RLHF 他是直接用真的RL
02/16 23:08, 409F

02/16 23:09, 4天前 , 410F
這也是它這次的亮點 借鏡AlphaGo-Zero
02/16 23:09, 410F

02/16 23:12, 4天前 , 411F
R1有蒸餾版 和 滿血版671b 怎麼現在還有人沒搞清楚
02/16 23:12, 411F

02/16 23:14, 4天前 , 412F
蒸餾版最大也才70B
02/16 23:14, 412F

02/16 23:24, 4天前 , 413F
鬼扯,DeepSeek是拿Meta的開源模型進行優化
02/16 23:24, 413F

02/16 23:25, 4天前 , 414F
不是無中生有幹一個模型出來
02/16 23:25, 414F

02/16 23:26, 4天前 , 415F
那人家的補習重點再出一版精簡版講義....
02/16 23:26, 415F

02/16 23:33, 4天前 , 416F
推分享
02/16 23:33, 416F

02/17 03:40, 4天前 , 417F
你要吹捧也不要只講一半啊 Deepseek隱藏層參數怎麼
02/17 03:40, 417F

02/17 03:40, 4天前 , 418F
來的怎麼不介紹一下
02/17 03:40, 418F

02/17 03:40, 4天前 , 419F
還從頭捏勒 好會扯
02/17 03:40, 419F

02/17 07:20, 4天前 , 420F
蒸餾版qwen,llama的模型,是訓練完671B滿血版才做
02/17 07:20, 420F

02/17 07:20, 4天前 , 421F
的事,llama中文這麼差,蒸餾它完模型還會變笨,要
02/17 07:20, 421F

02/17 07:20, 4天前 , 422F
懷疑的是到底有沒有蒸餾openai
02/17 07:20, 422F

02/18 11:00, 2天前 , 423F
還捏出一個小朋友咧,很會胡扯,DeepSeek是用蒸餾
02/18 11:00, 423F

02/18 11:00, 2天前 , 424F
技術利用別人的模型,最好他是自己捏出一個小朋友
02/18 11:00, 424F

02/18 11:00, 2天前 , 425F
02/18 11:00, 425F
文章代碼(AID): #1diLUNRQ (Stock)
文章代碼(AID): #1diLUNRQ (Stock)