[討論] 為何機器人AI不透過強化式學習訓練?

看板Tech_Job (科技人)作者 (Vanish)時間5小時前 (2024/10/16 23:54), 4小時前編輯推噓8(8060)
留言68則, 13人參與, 1小時前最新討論串1/1
剛剛看了YouTube 介紹特斯拉Optimus的影片 裡面提到特斯拉裡面有50位人員 專門用VR裝置去操控Optimus 去執行某修動作 例如分類物品 然後就可以透過這些動作訓練模型 但是跟特斯拉成千上萬個車子數據比起來 這只能算是小巫見大巫 那我就好奇 為什麼機器人不透過強化式學習的方式去訓練 如同訓練AI玩遊戲一樣 可以給個很明確的計分方式 然後讓AI自己去玩遊戲 只要規則夠明確 AI自己就可以訓練練到很強 同樣道理 我讓一顆球放在一個發射平台 會自動彈出 然後球上有晶片 只要機器人可以在越短的時間去把球撿回來 他就可以得到高分 如此一來他就可以去學習如何快速辨識球的位置 如何規劃路線 如何最佳應用他的身體 然後快速把球撿起來 放回發射平台 這樣作法的好處是可以做出成千上萬台機器人 讓他們自己去訓練 一年365天24小不停歇 這樣就能產生大量數據 快速精進機器人AI模型 同樣的模式還可以特用的很多事情上 所以為何現在的機器人公司不這樣做 要用真的人去訓練搜集數據呢? 還是其實有在做了? ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.92.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1729094085.A.D1F.html

10/17 00:03, 4小時前 , 1F
你怎麼知道沒有人作這個?
10/17 00:03, 1F
原來已經有了嗎?

10/17 00:04, 4小時前 , 2F
因為不把真人互動加進訓練的話 你會訓練出殺人機器
10/17 00:04, 2F
如果任務能成功達成 好像也不失為一個方法? 只是任務怎麼定義就很重要

10/17 00:04, 4小時前 , 3F
或是大法師那樣走路的機器人 因為那樣比較有效率
10/17 00:04, 3F
※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:05:46 ※ 編輯: seal46825 (123.192.92.120 臺灣), 10/17/2024 00:06:44

10/17 00:22, 4小時前 , 4F
這在機器手臂取物都做到爛的事情…
10/17 00:22, 4F

10/17 00:25, 4小時前 , 5F
上網搜尋robotic deep reinforcement learning 應
10/17 00:25, 5F

10/17 00:25, 4小時前 , 6F
該會有一堆paper
10/17 00:25, 6F

10/17 00:26, 4小時前 , 7F
另外,RL 訓練實體動作極差,成本極高。通常都是先
10/17 00:26, 7F

10/17 00:26, 4小時前 , 8F
建立模擬環境,跟本不是你文中的直接physical去碰撞
10/17 00:26, 8F

10/17 00:26, 4小時前 , 9F
訓練。
10/17 00:26, 9F

10/17 00:28, 4小時前 , 10F
你這些說法根本就是外行,連訓練成本,效率,都不考
10/17 00:28, 10F

10/17 00:28, 4小時前 , 11F
慮。訓練一個動作,RL隨意碰撞,機器人先壞100台,
10/17 00:28, 11F

10/17 00:28, 4小時前 , 12F
外行人傻了才這樣想。
10/17 00:28, 12F

10/17 00:32, 4小時前 , 13F
我的確是外行 對AI好奇整天亂看而已 問題是如果要叫
10/17 00:32, 13F

10/17 00:32, 4小時前 , 14F
幾千萬個真人去搜集數據 成本不會比較低啊 除非可以
10/17 00:32, 14F

10/17 00:32, 4小時前 , 15F
跟特斯拉車子一樣發展出可以讓人去操控機器人的商業
10/17 00:32, 15F

10/17 00:32, 4小時前 , 16F
模式
10/17 00:32, 16F

10/17 00:33, 4小時前 , 17F
用第一性原理去思考 這個沒道理做不到 我認為馬斯克
10/17 00:33, 17F

10/17 00:33, 4小時前 , 18F
肯定也有想過 至於為什麼我們沒看到有兩個原因 一個
10/17 00:33, 18F

10/17 00:34, 4小時前 , 19F
是其實有做 但我們不知道 第二個是其實有什麼大瓶頸
10/17 00:34, 19F

10/17 00:34, 4小時前 , 20F
在 這就是我好奇的地方
10/17 00:34, 20F

10/17 00:50, 4小時前 , 21F
這個問題我覺得蠻優的
10/17 00:50, 21F

10/17 01:00, 3小時前 , 22F
它們是先在模擬環境練了幾萬年才放出來現實世界的
10/17 01:00, 22F

10/17 01:01, 3小時前 , 23F
畢竟是泛用型的人形機器人,日後可能會用於長照或
10/17 01:01, 23F

10/17 01:01, 3小時前 , 24F
現在在做的是類似GPT一樣透過人類行為微調
10/17 01:01, 24F

10/17 01:01, 3小時前 , 25F
托兒,這種與人類互動的行為得由人類親自教導,而
10/17 01:01, 25F

10/17 01:01, 3小時前 , 26F
不是機器自己訓練自己。
10/17 01:01, 26F

10/17 01:02, 3小時前 , 27F
有樣東西叫人因工程
10/17 01:02, 27F

10/17 01:02, 3小時前 , 28F
請工人一來不划算,二來把工人的行為轉換成機器人
10/17 01:02, 28F

10/17 01:02, 3小時前 , 29F
能用的數據太貴了
10/17 01:02, 29F

10/17 01:03, 3小時前 , 30F
而且特斯拉機器人現在應該還不敢做跑步之類的快速
10/17 01:03, 30F

10/17 01:03, 3小時前 , 31F
動作,撞到人蠻糟糕的。
10/17 01:03, 31F

10/17 01:03, 3小時前 , 32F
一個機器人是數十個關節的馬達還有感知器在協同,
10/17 01:03, 32F

10/17 01:03, 3小時前 , 33F
只有人類操作工具的影像根本不夠
10/17 01:03, 33F

10/17 01:05, 3小時前 , 34F
模擬環境裡應該能做到跑,只是現實與模擬的誤差還
10/17 01:05, 34F

10/17 01:05, 3小時前 , 35F
沒調教過來
10/17 01:05, 35F

10/17 01:05, 3小時前 , 36F
應該不是影像,而是透過遠端遙控的方式訓練
10/17 01:05, 36F

10/17 01:07, 3小時前 , 37F
全部都給你說完了他要賺什麼
10/17 01:07, 37F

10/17 01:07, 3小時前 , 38F
黃仁勳來台灣那個發表會不是提到Omniverse之類的孿
10/17 01:07, 38F

10/17 01:07, 3小時前 , 39F
生模型來訓練機器人
10/17 01:07, 39F

10/17 01:08, 3小時前 , 40F
他就是要像m$一樣慢慢地滲透到你國家的每一個角落然
10/17 01:08, 40F

10/17 01:08, 3小時前 , 41F
後再更新收費
10/17 01:08, 41F

10/17 01:08, 3小時前 , 42F
一下就到達完全體 馬上就被抄走了
10/17 01:08, 42F

10/17 01:20, 3小時前 , 43F
有阿 記得所羅門 吹邊緣學習3年了 不知學到哪了
10/17 01:20, 43F

10/17 01:26, 3小時前 , 44F
lecun提的世界模型路線可以了解一下
10/17 01:26, 44F

10/17 01:29, 3小時前 , 45F
台灣公司就不用看了連日本都打不贏
10/17 01:29, 45F

10/17 01:30, 3小時前 , 46F
不然就是才剛有創新的時候就被買走
10/17 01:30, 46F

10/17 01:42, 3小時前 , 47F
不要說機器人能長照好嘛笑死人了
10/17 01:42, 47F

10/17 01:43, 3小時前 , 48F
沒照顧過老人的才會嘴砲說機器人長照
10/17 01:43, 48F

10/17 01:43, 3小時前 , 49F
如果是這樣的話東協那些都不用發展了
10/17 01:43, 49F

10/17 01:43, 3小時前 , 50F
專心訓練ai就好
10/17 01:43, 50F

10/17 01:54, 3小時前 , 51F
用RL做機器人策略有獎勵稀疏、sim2real gap問題,有
10/17 01:54, 51F

10/17 01:54, 3小時前 , 52F
人類展示當訓練資料是最好的
10/17 01:54, 52F

10/17 02:03, 2小時前 , 53F
你講的這個二十年後做不做的出來還是個問題
10/17 02:03, 53F

10/17 02:04, 2小時前 , 54F
更何況要能用得起
10/17 02:04, 54F

10/17 02:05, 2小時前 , 55F
現在玩的都還是剛草創而已
10/17 02:05, 55F

10/17 02:05, 2小時前 , 56F
電力就不夠了
10/17 02:05, 56F

10/17 02:05, 2小時前 , 57F
其實這也都是個騙局
10/17 02:05, 57F

10/17 02:05, 2小時前 , 58F
要夠不夠都取決於他要怎麼用
10/17 02:05, 58F

10/17 02:06, 2小時前 , 59F
經濟部也只能瞎找電
10/17 02:06, 59F

10/17 02:07, 2小時前 , 60F
真的管制誰在用演算法的那個人才是關鍵
10/17 02:07, 60F

10/17 02:09, 2小時前 , 61F
你們要想想在這個賽局最後
10/17 02:09, 61F

10/17 02:09, 2小時前 , 62F
投入那麼多
10/17 02:09, 62F

10/17 02:10, 2小時前 , 63F
你能否真的完全擁有一個堪用的機器人?
10/17 02:10, 63F

10/17 02:10, 2小時前 , 64F
還是又是幫人養老婆?
10/17 02:10, 64F

10/17 02:11, 2小時前 , 65F
這些資料庫雲端都不是台灣本身的技術台灣都是搞些
10/17 02:11, 65F

10/17 02:11, 2小時前 , 66F
有名無實的代工
10/17 02:11, 66F

10/17 03:44, 1小時前 , 67F
例如球發射後卡在天花板 照你說的訓練 機器人永遠
10/17 03:44, 67F

10/17 03:44, 1小時前 , 68F
不可能找到方法把球拿下來
10/17 03:44, 68F
文章代碼(AID): #1d3-75qV (Tech_Job)
文章代碼(AID): #1d3-75qV (Tech_Job)