Re: [請益] 野生環境的資料庫相關?
※ 引述《neo5277 (I am an agent of chaos)》之銘言:
: 所以請想問一下 所謂的資料庫引擎技術 以及一些學習這塊 雲端 bigdata ML應該要有
: 的基本內建知識 多謝各位
bigdata 是合體英文字母,看起來就很帥
不過實際上在討論/解決的問題,出發點其實滿單純的
「啊資料太大了,電腦開不起來,跑一個月跑不完,怎麼辦?」
「一台跑不動,那就用一百台開啊,一百台不夠就一萬台啊!」
「啊我要怎麼讓一百台,甚至一萬台電腦一起做同一件工作?」
「呃....」
所以有了 Hadoop,那是人家寫好可以快速派工給一萬台電腦的程式平台。
至於為什麼不用關聯式資料庫?因為他天生不適合多台一起做同一件事 *註1
有了這個認知之後,然後看你想學的實際上是什麼
- 想知道什麼時候該用大資料技術
-> 「當你要處理的資料大到硬碟裝不下的時候」
-> 「當你要跑的東西用一台電腦要跑一個月才能跑完的時候」
- 想學怎麼用 Hadoop
-> 直接去看教學文件,看你能看懂幾成。
而且這不太需要管那些資料結構演算法之類的
- 想知道「為什麼用一般的關聯式資料庫沒辦法像 Hadoop 一樣十個打一個」
-> 你得知道關聯式資料庫怎麼實作的,這個要學的東西就很多了...
- 想知道怎麼完全發揮大資料的威力
-> 請找統計學的書來看
註1:
不過也有人用這些分散式運算的技術做出讓你可以對一百台機器下 SQL 的資料庫。
用起來跟一般關聯式資料庫很像,只是底層的運作機制完全不同
而 Machine Learning 其實是另外一件事情,這類技術跟 AI 多少有關係
而且通常會碰數學。
http://zh.wikipedia.org/zh-tw/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0
Wikipedia 上面列了不少機器學習的演算法,不過大多寫的不太好懂
建議拿那些演算法的名字自己去 Google 其他的教學文章[炸]
我自己跟這塊不熟,但感覺這方面要能夠通也最好是去學個統計學...
那 Machine Learning 跟大資料的關係在哪裡?
當你想讓機器「學」的資料一顆硬碟裝不完的時候時候就有關了,反過來就沒關係....
還有,也不要太過相信 Machine Learning。
可以去 Google「類神經網路 股票」,你會看到一~大~堆~人想用 AI 自動下單賺錢
但是你基本上找不到有人真的這樣賺到錢....
最後,雲端跟奈米或小分子能量水一樣,在這個年頭是個被濫用的行銷名詞
實際上指的是什麼,還是根本是鬼扯蛋,那要 case by case 去看
我相信翟本喬很清楚自己講的雲端是什麼
但我也認為大部分掛著「雲端」的東西跟他說的雲端完全沒關係
-----------------------------------------------------------
其實要我說的話,能夠用上 bigdata 的場合其實沒那麼多
大資料的威力本質還是「分析資料來找出原本看不出來的事情」
真正該問的問題是「該分析什麼」
如果只要應付幾十萬筆,甚至幾萬筆資料
光是用 Excel 就可以做出嚇死人的統計資料
這時候你該學的是統計學,或是去學樞紐分析表怎麼用
不是每個人都有上 TB 甚至上 PB 的 Log 需要被分析...
--
______ ____________________________________ _ _-_ _ ___
/ __||____________________________________| _|_|.---'---`---.|_|_ |___)
|___| Let it go! Let it go! \----._________.----/
___ Where no man has gone before! `. `]-[' ,'
| |__ _________________________________________ `.' _ `.' ________
\______||_________________________________________| |_(_)_| |________)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.227.54.50
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1426348568.A.5FA.html
推
03/14 23:57, , 1F
03/14 23:57, 1F
推
03/15 00:16, , 2F
03/15 00:16, 2F
※ 編輯: GALINE (61.227.54.50), 03/15/2015 00:29:44
推
03/15 01:47, , 3F
03/15 01:47, 3F
→
03/15 03:19, , 4F
03/15 03:19, 4F
→
03/15 03:20, , 5F
03/15 03:20, 5F
→
03/15 03:20, , 6F
03/15 03:20, 6F
→
03/15 03:21, , 7F
03/15 03:21, 7F
討論串 (同標題文章)
Soft_Job 近期熱門文章
15
63
PTT職涯區 即時熱門文章