Re: [請益] 為什麼搜尋引擎可以連到這麼多網站?
※ 引述《jaw109 ()》之銘言:
: 那麼, 有沒有一種技術, 可以統整, 分析這朵大雲裡的各種資料
: 直接告訴你, 馬英九今天的所有行蹤?
: (今天明年也許還辦不到, 但是未來....?)
: 如果你問我雲端技術是什麼
: 我會說是資料與資料之間連結衍生出來的意義
這當然不是雲端,到時候會有另外的技術口號。
但就算做出這樣的東西,其實也不是什麼新發展,未來成功的相關技術,
到時候可能和過去的研究全然不同,不過觀念是不會變的。
前面提到 1990 年代的研究,主要的方向之一,就是在解決網路中資料意義的問題,
主要大概有三個方向,其一是由軟體自行整合各種資料,這種技術最困難,
要花費最多計算力,但很對學術界胃口,一般稱作 Agent-based model.
這東西講起來很麻煩,並且上網一查就有,就不多做解釋。
第二種是通過一個適當的軟體架構,使系統能不斷地調整改進,過濾不必要的資訊,
趨近人們想要的結果。在技術上的困難主要是架構的設計,
要能同時通過資料分析、使用者互動、系統設定、開發者修改,還能持續維持運作,
使結果愈來愈好,是一件很不容易的複雜工程。
這是一大類技術,一般稱作 Information Retrieval, 也有人堅持 retrieval 和
indexing 要分開來談,或是認為 data mining 也要分開來看,
不過總之就是 Google 一直在做的事。
非一般化的資料檢索和擷取,效果會好得多,那個 Wolfram Alpha 就是一個例子,
領域愈專門效果愈好,還有把特定領域的全部資料丟下去跑一輪語義分析的極端做法,
用在企業知識庫也算好用,展示的效果很嚇人,在 2000 年左右,
就有好些新創公司開始在做了,不過顯然系統會很貴,看來也賣得沒有很好,
要不然現在應該已經有幾家上市公司了。
我訂了 ACM 的 IR 期刊好幾年,有一種學界對此愈來愈沒興趣的感覺,
新東西不多,剩下來主要是都工程性的問題了,不過要等到微軟之類的大廠投入,
變成什麼企業知識庫或什麼新名詞的開發工具,應該不是短時間的事。
這是我目前手上有相關案子在做的技術應用之一,比較有興趣的方向,
是用在投資市場上,雖然國外也有一些公司做了好些年,但系統移殖不易,
仍有一些市場的開發空間。
所以如果有高等級的政治類知識庫,要做到自動整理馬英九行程資訊,就不是難事,
超過十年前我就想搞過,但民進黨那邊接觸的結果,他們想的東西完全不一樣,
國民黨那邊,想也知道不可能,所以也只是幻想而已。
要是政治人物的大小訊息,都被電腦自動整理出來,很多人都不用混了...
等到有足夠多各種領域的知識庫出現,到時做一個統整性的 meta-search,
就可以解決大部分問題了,這東西比的就是誰最精準地在適當時機介入市場,
然後有效宣傳,就又是一個大眾媒體上的天才和創新技術公司了,
當然到時 Google 一聲不響地加入這類功能,把對手直接打死的可能性,
還是最大的。
第三種做法是認為根本問題在於人們並沒有用適當的方式輸入資料,
當有人要輸入「馬英九行程」時,第一個該做的事情,是建立這個資料標籤,
而不是打完字後都在搞排版,現在的 web 從設計上就有問題,
不正確的技術框架才導致今日的困難。
所以最該做的事情,就是把舊的 WWW 系統改成 Semantic Web, 此後什麼事都簡單了,
相關的技術都是現成的,要的就是系統昇級,目前號稱為 "Web 3.0" XD
這東西不要什麼技術,標準也愈訂愈多,就差標準的推廣和相關的成功企業,
改天有成功的企業,或許又會炒作得滿天飛吧。
想賺大錢或作一般 IT 人員心中的技術先知,現在就可以投入了...
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 111.70.110.92
※ 編輯: reader 來自: 111.70.110.92 (02/08 19:42)
推
02/09 10:20, , 1F
02/09 10:20, 1F
推
02/09 13:03, , 2F
02/09 13:03, 2F
→
02/09 13:04, , 3F
02/09 13:04, 3F
推
02/11 15:44, , 4F
02/11 15:44, 4F
→
02/11 15:45, , 5F
02/11 15:45, 5F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 11 之 11 篇):
ask-why 近期熱門文章
PTT職涯區 即時熱門文章