Re: [請益] 為什麼搜尋引擎可以連到這麼多網站?

看板ask-why (知識奧秘)作者 (讀者)時間15年前 (2011/02/08 18:59), 編輯推噓3(302)
留言5則, 3人參與, 最新討論串11/11 (看更多)
※ 引述《jaw109 ()》之銘言: : 那麼, 有沒有一種技術, 可以統整, 分析這朵大雲裡的各種資料 : 直接告訴你, 馬英九今天的所有行蹤? : (今天明年也許還辦不到, 但是未來....?) : 如果你問我雲端技術是什麼 : 我會說是資料與資料之間連結衍生出來的意義 這當然不是雲端,到時候會有另外的技術口號。 但就算做出這樣的東西,其實也不是什麼新發展,未來成功的相關技術, 到時候可能和過去的研究全然不同,不過觀念是不會變的。 前面提到 1990 年代的研究,主要的方向之一,就是在解決網路中資料意義的問題, 主要大概有三個方向,其一是由軟體自行整合各種資料,這種技術最困難, 要花費最多計算力,但很對學術界胃口,一般稱作 Agent-based model. 這東西講起來很麻煩,並且上網一查就有,就不多做解釋。 第二種是通過一個適當的軟體架構,使系統能不斷地調整改進,過濾不必要的資訊, 趨近人們想要的結果。在技術上的困難主要是架構的設計, 要能同時通過資料分析、使用者互動、系統設定、開發者修改,還能持續維持運作, 使結果愈來愈好,是一件很不容易的複雜工程。 這是一大類技術,一般稱作 Information Retrieval, 也有人堅持 retrieval 和 indexing 要分開來談,或是認為 data mining 也要分開來看, 不過總之就是 Google 一直在做的事。 非一般化的資料檢索和擷取,效果會好得多,那個 Wolfram Alpha 就是一個例子, 領域愈專門效果愈好,還有把特定領域的全部資料丟下去跑一輪語義分析的極端做法, 用在企業知識庫也算好用,展示的效果很嚇人,在 2000 年左右, 就有好些新創公司開始在做了,不過顯然系統會很貴,看來也賣得沒有很好, 要不然現在應該已經有幾家上市公司了。 我訂了 ACM 的 IR 期刊好幾年,有一種學界對此愈來愈沒興趣的感覺, 新東西不多,剩下來主要是都工程性的問題了,不過要等到微軟之類的大廠投入, 變成什麼企業知識庫或什麼新名詞的開發工具,應該不是短時間的事。 這是我目前手上有相關案子在做的技術應用之一,比較有興趣的方向, 是用在投資市場上,雖然國外也有一些公司做了好些年,但系統移殖不易, 仍有一些市場的開發空間。 所以如果有高等級的政治類知識庫,要做到自動整理馬英九行程資訊,就不是難事, 超過十年前我就想搞過,但民進黨那邊接觸的結果,他們想的東西完全不一樣, 國民黨那邊,想也知道不可能,所以也只是幻想而已。 要是政治人物的大小訊息,都被電腦自動整理出來,很多人都不用混了... 等到有足夠多各種領域的知識庫出現,到時做一個統整性的 meta-search, 就可以解決大部分問題了,這東西比的就是誰最精準地在適當時機介入市場, 然後有效宣傳,就又是一個大眾媒體上的天才和創新技術公司了, 當然到時 Google 一聲不響地加入這類功能,把對手直接打死的可能性, 還是最大的。 第三種做法是認為根本問題在於人們並沒有用適當的方式輸入資料, 當有人要輸入「馬英九行程」時,第一個該做的事情,是建立這個資料標籤, 而不是打完字後都在搞排版,現在的 web 從設計上就有問題, 不正確的技術框架才導致今日的困難。 所以最該做的事情,就是把舊的 WWW 系統改成 Semantic Web, 此後什麼事都簡單了, 相關的技術都是現成的,要的就是系統昇級,目前號稱為 "Web 3.0" XD 這東西不要什麼技術,標準也愈訂愈多,就差標準的推廣和相關的成功企業, 改天有成功的企業,或許又會炒作得滿天飛吧。 想賺大錢或作一般 IT 人員心中的技術先知,現在就可以投入了... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.70.110.92 ※ 編輯: reader 來自: 111.70.110.92 (02/08 19:42)

02/09 10:20, , 1F
Push
02/09 10:20, 1F

02/09 13:03, , 2F
←太久沒讀書,沒辦法就這方面進一步討論
02/09 13:03, 2F

02/09 13:04, , 3F
(只剩閒聊的程度了 XD)
02/09 13:04, 3F

02/11 15:44, , 4F
semantic web 己經好久囉~ 學術界快玩到沒東西玩了, 東西
02/11 15:44, 4F

02/11 15:45, , 5F
都有了, 看有沒有企業要砸錢實作推廣囉~
02/11 15:45, 5F
文章代碼(AID): #1DKI8IGX (ask-why)
討論串 (同標題文章)
文章代碼(AID): #1DKI8IGX (ask-why)