Re: [問題] 想走Big Data的選系困擾
前面強者都說得很有道理,在下稍微從CS的角度補充
故事是這樣的
1.量太多了
Google(Amazon、Yahoo!...)
每天所收到的查詢量太多沒辦法存全部,只能存部分
(也可以是滑鼠點擊、Session)
知道每天到底有多少不同的查詢非常重要
(許多進階的分析都需要Count distinct)
於是想辦法"抽樣來代表母體"
抽樣的方法是Hash Function成010101的位元
Google在2005年就嘗試解決這樣的問題(Min-Count)
2.計算太複雜了
拿迴歸來說,統計學用的是Least Square
CS本來用Gradient Descent,因為資料太大改用Stochastic Gradient Descent
把演算法寫成平行運算版本(Hadoop),交給cluster跑
另外,實作時也可能會發生:
理論說,計算獨立事件一起發生的機率,相乘所有事件發生的機率
實際寫程式才發現事件太多,因電腦無法表示到該小數位,相乘機率全是0
所以取Math.log之後,把相乘變成相加,電腦就能表示了
講了許多CS觀點
在下也沒有認為CS面對大量數據時比較先進
而是統計與CS發威在價值鏈不同的地方(前面強者有分享)
呼應前面強者所提,Stanford有很好的資源
它的開放課程Mining of Massive Datasets
教授許多關於資料太大,Memory不夠用的演算法
https://www.coursera.org/course/mmds
Univ. of Washinton也是很好的選擇
它的開放課程Data Science探討許多的實作(MapReduce, Pregel)
https://www.coursera.org/course/datasci
也可以看看相關工作所要求的技能
http://www.kdnuggets.com/jobs/index.html
就選你所愛,愛你所選囉
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 79.197.209.160
※ 文章網址: https://www.ptt.cc/bbs/studyabroad/M.1422829966.A.E01.html
→
02/02 07:28, , 1F
02/02 07:28, 1F
→
02/02 07:28, , 2F
02/02 07:28, 2F
→
02/02 07:29, , 3F
02/02 07:29, 3F
→
02/02 08:37, , 4F
02/02 08:37, 4F
推
02/02 10:41, , 5F
02/02 10:41, 5F
→
02/02 12:09, , 6F
02/02 12:09, 6F
推
02/02 13:05, , 7F
02/02 13:05, 7F
推
02/02 13:45, , 8F
02/02 13:45, 8F
→
02/02 13:46, , 9F
02/02 13:46, 9F
推
02/02 15:31, , 10F
02/02 15:31, 10F
推
02/02 15:47, , 11F
02/02 15:47, 11F
推
03/18 11:48, , 12F
03/18 11:48, 12F
討論串 (同標題文章)
完整討論串 (本文為第 7 之 11 篇):
12
14
studyabroad 近期熱門文章
PTT職涯區 即時熱門文章