Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?

看板Soft_Job (軟體人)作者 (隨意)時間9年前 (2016/12/26 12:26), 編輯推噓5(5014)
留言19則, 9人參與, 最新討論串13/21 (看更多)
這領域主要分為二大類: (A)玩資料的人:具有想像力能找出資料間的關聯性,挖掘出有用的智慧。 能使用Machine learning提供訓練好的模型讓企業做應用(推薦系統), 或者直接給出一個結論(啤酒尿布)。 有興趣的話可以參加台灣資料科學年會,會看到有趣的範例和應用。 這塊領域比較偏向學術,需熟悉統計學和演算法,能知道每種演算法該如何應用。 如果不是國立大學研究所畢業,或者沒有在這領域闖出名堂的人,很難進入。 (B)提供資料的人:建立穩定、可儲存大量資料的系統,使用ETL提供乾淨的資料給A 做Machine learning。 這部份又分為 (a)使用昂貴、封閉的大型伺服器系統。ex:data warehouse (b)使用Open Soucre、用一般電腦做分散式運算的系統。ex:Hadoop、Spark 大數據會熱門,是因為網際網路、手機、電腦的普及加上互聯網的推動, 讓人察覺龐大數據背後的價值。加上Hadoop、Spark、R的出現,讓人覺得 玩Machine learning不再只是有錢人的權利。 學了幾個月Hadoop、Spark的心得是:這東西其實是個坑,學這東西需要很好的 英文、Linux、Java、網路架構、資料庫知識。絕對不是無腦一直按下一步就可以 建立好的系統。而且它們還未達商品化的標準,系統不穩定又難維護。 系統出問題爬Linux、追SoucreCode是必經的過程。 想學好它們consultant是避免不了,上課也跑不掉,弄一弄又是幾十萬的開銷。 那公司為什麼要花一大筆錢讓你去上課去研究Hadoop、Spark? Hadoop、Spark不是唯一解,把基本功練好(英文、Linux、程式語言)才是唯一方法。 傳統公司的思維是:我花了多少錢,可以拿到什麼產品賺多少錢。 但是玩Machine learning的下場常常是:我花了一大筆錢,分析出來的結果是0。 願意玩Machine learning的公司大多是:已經發展的很成功,為了要維持競爭力 撥一筆研究經費來試試看的類型。 在台灣玩Machine learning的人已經非常多,學術機構、銀行、電信都有。 玩資料就是踏入漫長的道路,沒人敢說自己很成功如果成功早就是Google第2了。 結論: 1)想學1、2門課就一步登天,年薪百萬是不可能的。想進入這領域靠得還是 學歷、基本功、機緣。 2)會要求MS-SQL是希望面試的人能有一定的基本功,會自已做ETL, 而且在做資料分析之餘還能幫忙分攤一些基本的工作。 3)投入這領域的人已經非常多,唸得出來的企業都有,只是大家都很低調。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.163.12.157 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1482726386.A.599.html

12/26 12:31, , 1F
絕大部分走這行死最多人是整理資料
12/26 12:31, 1F

12/26 12:33, , 2F
光是要怎麼說服決策主管和各業辦承認這份結構
12/26 12:33, 2F

12/26 12:34, , 3F
而資料分析師對資料的界線和顆粒影響到底層工作
12/26 12:34, 3F

12/26 12:35, , 4F
沒有信仰和信心去當資料工程師根本非常無聊
12/26 12:35, 4F

12/26 12:51, , 5F
12/26 12:51, 5F

12/26 13:15, , 6F
一樓說的是 現在我也剛入行資料庫應用系統相關的工作
12/26 13:15, 6F

12/26 13:16, , 7F
前輩也是說到 最麻煩的事情就是整理 轉換資料...
12/26 13:16, 7F

12/26 13:16, , 8F
推!
12/26 13:16, 8F

12/26 13:17, , 9F
big data領域的話 那更是...囧
12/26 13:17, 9F

12/26 13:24, , 10F
很同意整理轉換資料很煩。自己想過做幾個練習的題目都
12/26 13:24, 10F

12/26 13:25, , 11F
發現,找不到立即可用的訓練資料,而要花很多時間整理
12/26 13:25, 11F

12/26 15:23, , 12F
大部份的時間都是花在ETL和取樣
12/26 15:23, 12F

12/26 15:39, , 13F
推這篇~講得很中肯
12/26 15:39, 13F

12/26 20:46, , 14F
作資料分析 都是轉換資料 清洗資料的時間多 而這些都是
12/26 20:46, 14F

12/26 20:46, , 15F
程式的基本功 剩下丟給演算法產生結果 這是最快的 有時
12/26 20:46, 15F

12/26 20:46, , 16F
還會再把結果輸出到視覺工具觀看
12/26 20:46, 16F

12/28 03:05, , 17F
畢竟新名詞只有潮而已 本質還是資料分析的老路
12/28 03:05, 17F

12/28 03:08, , 18F
還不到破壞式創新的程度 賺點工錢而已 不是大賺
12/28 03:08, 18F

12/28 03:11, , 19F
這波淘金潮裡 不意外賺最多的 還是賣鏟子的跟教人淘金的
12/28 03:11, 19F
文章代碼(AID): #1OO9loMP (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1OO9loMP (Soft_Job)