[請益] Web Data Extraction

看板Soft_Job (軟體人)作者 (chris)時間16年前 (2009/06/21 11:52), 編輯推噓2(200)
留言2則, 2人參與, 最新討論串1/1
請教大家 有人有研究過Web Data Extration嗎? 是不是所有網站的資料都可以抓到呢 我找到了一個Java-based的library叫Web Harvest 在試過他給的範例後發現有的網站可以抓的到資料 但是有的不行例如gmail或yahoo mail 尤其是gmail登入後的首頁開啟原始碼頁面發現 都是JSON格式的資料已經不是一般的HTML頁面 請問有人有實作過或研究過Web Data Extraction的東西嗎? 有沒有軟體或library可以用在所有的網站上呢? 如果需要從底層寫要從哪邊著手? Java Scoket嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 75.53.47.129

06/21 15:28, , 1F
C#
06/21 15:28, 1F

06/22 23:56, , 2F
直接從 browser 下手比較快,從 socket 開始刻太花功夫
06/22 23:56, 2F
文章代碼(AID): #1AFQvfg6 (Soft_Job)
文章代碼(AID): #1AFQvfg6 (Soft_Job)