PTT職涯區 / Soft_Job (軟體人)

Re: [討論] 會用Hadoop == 具備大數據處理能力?

看板Soft_Job (軟體人)作者dryman (dryman)時間9年前 (2016/07/06 23:04)推噓21(21推 0噓 7→)

留言28則, 19人參與討論串4/6 (看更多)

我前兩份工作也是用Hadoop。我負責的是data stack tech lead 公司日資料量300TB 「大數據」這名詞真的很模糊不過這不是台灣的問題，因為美國這邊很多人也都是這麼搞我自己是這麼觀察啦... 把大數據當做資料科學技術來看的，大都沒有大資料把大數據當作「大型資料工程」問題來看的，由於問題複雜度太高所以很難作為資料科學問題來處理這什麼意思？大多數的資料科學演算法動輒O(N^2)以上數據量一大複雜度馬上就飆到上萬台機器都算不動的情況而一般的「大數據」工程師就是要解決因應數據量上升而需要重新設計演算法的工程問題 hadoop就是為了解決這樣的工程問題而生 * * * 傳統資料庫提供的是高階的SQL抽象層你只要處理集合間的連結即可底層真正的演算法，不論是透過hash table, sort, b-tree 很多人一般根本不需要接觸到但是當你數據量大到一定程度後由資料庫引擎自動幫你決定的演算法就再也不適用了 Hadoop 的設計就是讓你可以把資料問題轉換成 sort (map reduce shuffle phase) sort也是一般資料庫要解決大型資料查詢的最佳演算法（例如group by, join, or diff）一些高富雜度的問題，經過使用hadoop來客製演算法，就變得算得動了我第一份工作就是將一個要算五個小時的PostgreSQL ETL 重寫成map reduce，變得只有二十分鐘這個效率應該是用hive/pig都做不到的。因為要客製化演算法這只是在數據量變大後其中一個變困難的問題資料蒐集、處理（上述的ETL就是問題之一）、儲存、查詢每件事都變得困難許多通常資料科學家會拿去作分析的，大都是縮小很多的資料集了他們的第一步，通常就是怎麼把資料變得更小，不然算不動XD * * * 我最近試著把一些之前所學知識整理成部落格不定期更新 :P https://medium.com/@fchern 其中一篇是「那些大數據書不會教的資料工程」 http://tinyurl.com/hvrt7s8 主要在講如何進行資料清理有空可以看看 * * * 最後...不要寄信給我（包含職涯建議之類）有問題請在版上發問 :) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.248.38.67 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467817474.A.291.html

→

07/06 23:07, , 1^F

07/06 23:07, 1^F

推

07/06 23:10, , 2^F

07/06 23:10, 2^F

→

07/06 23:10, , 3^F

07/06 23:10, 3^F

→

07/06 23:11, , 4^F

07/06 23:11, 4^F

推

07/06 23:14, , 5^F

07/06 23:14, 5^F

→

07/06 23:23, , 6^F

07/06 23:23, 6^F

→

07/06 23:23, , 7^F

07/06 23:23, 7^F

推

07/06 23:29, , 8^F

07/06 23:29, 8^F

我推文沒寫清楚 hadoop, spark 都無法自動替你解決資料大過記憶體的情況複雜的演算法很多都還是要自己去推敲不過早期的spark真的會有資料大過記憶體就OOM的情況因為它們早期不是用sort，而是用hash table來處理shuffle phase..

推

07/06 23:29, , 9^F

07/06 23:29, 9^F

※ 編輯: dryman (98.248.38.67), 07/06/2016 23:33:29

推

07/06 23:36, , 10^F

07/06 23:36, 10^F

推

07/06 23:36, , 11^F

07/06 23:36, 11^F

→

07/06 23:37, , 12^F

07/06 23:37, 12^F

→

07/06 23:38, , 13^F

07/06 23:38, 13^F

推

07/06 23:39, , 14^F

07/06 23:39, 14^F

推

07/06 23:57, , 15^F

07/06 23:57, 15^F

推

07/07 00:16, , 16^F

07/07 00:16, 16^F

推

07/07 00:27, , 17^F

07/07 00:27, 17^F

推

07/07 00:30, , 18^F

07/07 00:30, 18^F

推

07/07 00:58, , 19^F

07/07 00:58, 19^F

推

07/07 01:10, , 20^F

07/07 01:10, 20^F

推

07/07 01:41, , 21^F

07/07 01:41, 21^F

推

07/07 07:51, , 22^F

07/07 07:51, 22^F

推

07/07 09:51, , 23^F

07/07 09:51, 23^F

推

07/07 09:56, , 24^F

07/07 09:56, 24^F

推

07/07 11:56, , 25^F

07/07 11:56, 25^F

推

07/07 12:22, , 26^F

07/07 12:22, 26^F

推

07/07 17:46, , 27^F

07/07 17:46, 27^F

推

07/10 01:37, , 28^F

07/10 01:37, 28^F

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 dryman 的文章

文章代碼(AID): #1NVHu2AH (Soft_Job)

討論串 (同標題文章)

完整討論串 (本文為第 4 之 6 篇)：

排序：最新先 | 最舊先 | 留言數

4

6

Re: [討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/07

4

16

Re: [討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/07

21

28

Re: [討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/06

0

1

Re: [討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/06

14

18

Re: [討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/06

16

47

[討論] 會用Hadoop == 具備大數據處理能力?

9年前, 07/06

在新視窗開啟完整討論串 (共6篇)

Soft_Job 近期熱門文章

1

12

[心得] 寫了一個把 Test case 變自動化的

15小時前, 03/31

10

30

Re: [請益] offer請益（職涯討論）

1天前, 03/30

12

34

[討論] 用github建立0成本詐騙網站

1天前, 03/30

3

23

[討論] AI評論魯肉飯會不會很難...

1天前, 03/30

3

16

Re: [討論] AI最大的問題是不是沒新需求

1天前, 03/29

3

4

Fw: [分享] 史丹佛CS:The Modern Software Developer

2天前, 03/29

16

55

[討論] AI最大的問題是不是沒新需求

2天前, 03/28

4

9

[心得] AI EXPO Taiwan 2026 ：代理人時代

3天前, 03/27

更多近期熱門文章 >>

PTT職涯區即時熱門文章

7

13

[請益] 想問問最近的操作石油貴金屬

21分鐘前, 03/31

55

76

[請益] 請教造紙在漲什麼？

28分鐘前, 03/31

16

32

Re: [新聞] 韓政府：自俄羅斯進口2.7萬噸石腦油今運

51分鐘前, 03/31

18

51

Re: [心得] 2025年關稅股災回憶錄（圖多）

55分鐘前, 03/31

0

8

Re: [新聞] 記憶體價格突然大跌 AI超級周期是否已見

58分鐘前, 03/31

64

122

[情報] 0331 上市外資買賣超排行

1小時前, 03/31

13

13

[新聞] 00927四月除息0.94元創新高！

1小時前, 03/31

29

58

[心得] 2025年關稅股災回憶錄（圖多）

1小時前, 03/31

更多即時熱門文章 >>

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 dryman 的文章

文章代碼(AID): #1NVHu2AH (Soft_Job)