Re: [討論] 會用Hadoop == 具備大數據處理能力?

看板Soft_Job (軟體人)作者 (派立肯)時間9年前 (2016/07/06 20:17), 9年前編輯推噓14(1404)
留言18則, 15人參與, 最新討論串2/6 (看更多)
小弟在國外銀行做BI,剛好最近導入Hadoop剛做完PoV Big Data的部分先放在後面,先來談談為什麼要用Hadoop 最主要的原因還是在銀行有太多不同的系統和資料來源,甚至有的老到幾十年都有 加上我們銀行上面又有別的國家的母銀行,十幾年前就發展了一套 Global Data Warehouse 這種GDW顧名思義就是管你來源是甚麼最後都進到一個統一的資料庫 然後下面再根據需求做ETL等等工作,為了資安和效率,GDW下面還有很多不同的資料庫 然後presenatation level再根據不同的需求去用這些資料 這樣行之有年也沒甚麼問題,但是慢慢這幾年就出現瓶頸 最簡單的例子就是ETL中的storage table因為太龐大,許多像是歷史交易資料如果 join其他table就常常跑到超過一個小時,還有其他許多需求就不再贅述 另外一個瓶頸就是即時性,GDW的架構讓下游資料庫只能用到前一天的資料 因為所以外部系統都要在營業日結束後才匯集資料, 所以最近我們就準備在未來幾年慢慢把GDW這種架構淘汰,慢慢轉換成Hadoop 搭配Informatica當作data quality 和 ETL 工具, presenation layer的最後通通 通過API取在Hadoop中被Informatica處理好的資料 Big Data直覺上就是資料龐大,不過複雜資料來源,時間性和輸出的效率都是其特性 至於用甚麼Analytics tool去分析我反而覺得那已經是Big data很末端的事情 Hadoop也不是傳統資料庫的替代品,我們目前也只評估20%現行的程序可以被取代 然後慢慢地提升也許到50%,同時間改善現行Sql Server的效能和空間問題 這樣各發揮各的優點,小弟最近做了一套程序,把銀行十幾年上百萬Excel檔案 根據不同的類別掃描變成JSON格式然後進Hadoop,好處就是不需要依賴任何資料庫 新的資料只需要一直append在檔案尾端,只要換一個schema就可以在Hive裡面有新的view Informatica做任何ETL也不會用到任何多餘空間當staging table,結果直接寫回hive 別的部門可以直接用像是SAS VA看到最新的資料 你說會Hadoop重不重要,我會說重要,我們通常稱這種role是 big data engineer 尤其在銀行這種注重架構,流程,正確性,效率的環境必須要仰賴這種人來確保 整個機器運轉的順暢,某種程度像是傳統 DBA 和 System Administrator的綜合 至少在我們銀行些用ML只要我們BI生的出資料,他們其實不太管前面怎麼搞 大概是這樣,理性討論勿戰 :) ※ 引述《deo2000 (800IM)》之銘言: : 最近看到一些公司在找人,把會用Hadoop認定是有大數據處理能力, : 甚至會看研究所做的題目是不是Hadoop? : 例如這篇 : https://goo.gl/0cTk60 : 還有這篇 : https://www.facebook.com/thank78/posts/630689647078714 : 但我對這種現象感到疑惑。 : 我認知的處理Big Data核心能力,是一些資料探勘、機器學習相關的演算法, : 以及相關應用(例如挖掘特定領域的資訊)。 : Hadoop是一個分散檔案系統的軟體工具,或許符合"Big Data"字面上的意義, : 但我們都知道data無用,information才有用, : 因此這個時代談的"Big Data"大多含有"挖掘、自動智慧"等意義, : 而不是單純的資料管理。 : 更何況論文研究出來的知識,不應該綁定在特定工具。 : 或許研究者本人只熟悉Hadoop或某種套裝軟體,這難免的。 : 但研究貢獻、他人欲重現研究過程等,都不應該綁死在特定軟體工具上。 : 或許因為我非資訊本科系、也不熟資料庫, : 請問,是不是我對 Hadoop 或 Big Data 有什麼誤解? : 為什麼 Big Data 的核心能力會是某種工具,而不是方法? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 121.98.139.194 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1467807469.A.00A.html ※ 編輯: pelicanper (121.98.139.194), 07/06/2016 20:34:38

07/06 20:33, , 1F
推,我最近也遇到這種問題,流程中人為變數太多,很難hac
07/06 20:33, 1F

07/06 20:33, , 2F
cp,想改成像是你這類型架構。
07/06 20:33, 2F

07/06 21:08, , 3F
你比上一篇的推文懂多了,別太謙虛
07/06 21:08, 3F

07/06 21:27, , 4F
好帖我頂
07/06 21:27, 4F

07/06 21:49, , 5F
經過n個人跟我口頭BigData後 你是目前唯一ㄧ個使用範
07/06 21:49, 5F

07/06 21:49, , 6F
例解釋的人= =
07/06 21:49, 6F

07/06 22:13, , 7F
建議使用avro而不是json,json解譯很慢
07/06 22:13, 7F

07/06 22:29, , 8F
謝謝分享~
07/06 22:29, 8F

07/06 22:48, , 9F
強者
07/06 22:48, 9F

07/06 22:52, , 10F
好奇,分散式的儲存還有其他的,為什麼會挑hadoop?
07/06 22:52, 10F

07/06 22:53, , 11F
台灣比較怕的是連 BI 都沒有就要做 big data
07/06 22:53, 11F

07/06 23:29, , 12F
因為選了Informatica的關係 ... 嗎
07/06 23:29, 12F

07/07 01:06, , 13F
pov是?
07/07 01:06, 13F

07/07 08:55, , 14F
c大突破盲點
07/07 08:55, 14F

07/07 09:51, , 15F
07/07 09:51, 15F

07/07 13:22, , 16F
好久沒看到派大了 還有在打鼓嗎
07/07 13:22, 16F

07/07 13:24, , 17F
因為開源/免錢/資源還是HADOOP大宗吧
07/07 13:24, 17F

07/08 16:36, , 18F
應該是POC? Proof of Concept~
07/08 16:36, 18F
文章代碼(AID): #1NVFRj0A (Soft_Job)
文章代碼(AID): #1NVFRj0A (Soft_Job)