Re: [問題] 想走Big Data的選系困擾

看板studyabroad (留學)作者 (逍遙盃-佛得)時間11年前 (2015/02/02 06:32), 編輯推噓6(606)
留言12則, 9人參與, 最新討論串7/11 (看更多)
前面強者都說得很有道理,在下稍微從CS的角度補充 故事是這樣的 1.量太多了 Google(Amazon、Yahoo!...) 每天所收到的查詢量太多沒辦法存全部,只能存部分 (也可以是滑鼠點擊、Session) 知道每天到底有多少不同的查詢非常重要 (許多進階的分析都需要Count distinct) 於是想辦法"抽樣來代表母體" 抽樣的方法是Hash Function成010101的位元 Google在2005年就嘗試解決這樣的問題(Min-Count) 2.計算太複雜了 拿迴歸來說,統計學用的是Least Square CS本來用Gradient Descent,因為資料太大改用Stochastic Gradient Descent 把演算法寫成平行運算版本(Hadoop),交給cluster跑 另外,實作時也可能會發生: 理論說,計算獨立事件一起發生的機率,相乘所有事件發生的機率 實際寫程式才發現事件太多,因電腦無法表示到該小數位,相乘機率全是0 所以取Math.log之後,把相乘變成相加,電腦就能表示了 講了許多CS觀點 在下也沒有認為CS面對大量數據時比較先進 而是統計與CS發威在價值鏈不同的地方(前面強者有分享) 呼應前面強者所提,Stanford有很好的資源 它的開放課程Mining of Massive Datasets 教授許多關於資料太大,Memory不夠用的演算法 https://www.coursera.org/course/mmds Univ. of Washinton也是很好的選擇 它的開放課程Data Science探討許多的實作(MapReduce, Pregel) https://www.coursera.org/course/datasci 也可以看看相關工作所要求的技能 http://www.kdnuggets.com/jobs/index.html 就選你所愛,愛你所選囉 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.209.160 ※ 文章網址: https://www.ptt.cc/bbs/studyabroad/M.1422829966.A.E01.html

02/02 07:28, , 1F
推最後一句, 最近很多諮詢的對象根本不知道自己喜不喜歡就
02/02 07:28, 1F

02/02 07:28, , 2F
說想當data scientist, 連工作內容在幹嘛都不知道..
02/02 07:28, 2F

02/02 07:29, , 3F
跟管院一窩蜂想擠IB consulting一個樣= =
02/02 07:29, 3F

02/02 08:37, , 4F
跟樓上看法一樣 一窩蜂CS/Data Science 盲從
02/02 08:37, 4F

02/02 10:41, , 5F
推原po專業
02/02 10:41, 5F

02/02 12:09, , 6F
data不夠多又做不出東西來,唉
02/02 12:09, 6F

02/02 13:05, , 7F
推 謝分享
02/02 13:05, 7F

02/02 13:45, , 8F
專業推
02/02 13:45, 8F

02/02 13:46, , 9F
也推一樓 XD
02/02 13:46, 9F

02/02 15:31, , 10F
感謝CS角度的專業分享!
02/02 15:31, 10F

02/02 15:47, , 11F
原PO專業!的確許多技術很早就存在了。
02/02 15:47, 11F

03/18 11:48, , 12F
專業分析推
03/18 11:48, 12F
文章代碼(AID): #1KpgcEu1 (studyabroad)
討論串 (同標題文章)
文章代碼(AID): #1KpgcEu1 (studyabroad)