Re: 請益Request爬蟲

看板Soft_Job (軟體人)作者s25g5d4 (function(){})()時間2年前 (2023/01/25 15:28)推噓21(21推 0噓 25→)

留言46則, 23人參與討論串2/3 (看更多)

手機打字不想打太多一般瀏覽器打開頁面可以分成幾個步驟： 1. 請求 HTML 2. 解析 HTML 並下載 assets (img, css, js) 3. 執行 js 4. 渲染 DOM 之後就是一直 3 4 按需執行，有動態內容可能還會有 2 當然，實際上的渲染執行步驟比這複雜的多 Selenium 等爬蟲最早是透過訂製的 Chromium 在不同階段存取頁面中的 DOM，本質上還是一個瀏覽器在讀取-解析-執行後來有穩定 API 與 headless 模式以後，Chrome/Chromium/ Firefox 等等主流瀏覽器幾乎都能被直接驅動扯遠了，你說得 requests 應該是指 Python 的 Requests 函式庫？那它只有執行上面提到的 1，什麼東西都拿不到是正常的。現代網頁開發已走向 SPA/前後端分離，你打開網頁只有給你一個骨架與 js 去執行動態內容，所以你必須執行上面說的 234 才能得到最終使用者看到的內容。一般來說寫爬蟲要快都是去拆 API 來看，不是很複雜的內容就是自己模擬請求直戳 API，在沒有公開 API 文件的情況下就有如逆向工程般麻煩。你必須知道他的 session 登入端點在哪，用 cookie session 還是 JWT 還是自行開發，之後所有請求都要帶登入驗證 token。然後你還要知道戳哪支 API 才會取得你要的內容，看是 JSON 還是 XML 還是其他奇奇怪怪格式，解析完才能用取得的資料。次一級是用輕量級的 browser emulator 去模擬瀏覽器產生 DOM，再去爬模擬的 DOM 內容。因為原生語言優勢，這種通常都是直接寫 Node.js 配 jsdom 去執行。這邊必須要注意瀏覽器內的 js 是在沙箱內執行的，可以用的 API 很少，但用 nodejs 執行外部來源的 js 就要注意 RCE 等安全問題。最後就是 Selenium 這種用真正的瀏覽器跑頁面渲染，相容性最好也安全，任意的 js 程式碼被瀏覽器包裝在瀏覽器內部，不至於輕易爆破主機，只是速度也最慢。再來就是看它會不會彈出一個瀏覽器視窗，如果會的話代表你沒有開 headless mode，有開速度也會快不少... 註：先聲明我不會寫 python，沒用過 Selenium，一路走來用過 PhantomJS、cheerio、puppeteer 直到現在的 jsdom -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.9.185.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1674631737.A.F1D.html

推

neo5277

01/25 15:50, 2年前 , 1^F

01/25 15:50, 1^F

推

Belieeve

01/25 15:55, 2年前 , 2^F

01/25 15:55, 2^F

推

WrongHole

01/25 16:58, 2年前 , 3^F

01/25 16:58, 3^F

推

lchcoding

01/25 17:57, 2年前 , 4^F

01/25 17:57, 4^F

推

walker088

01/25 18:14, 2年前 , 5^F

01/25 18:14, 5^F

→

walker088

01/25 18:14, 2年前 , 6^F

01/25 18:14, 6^F

推

Gismudis

01/25 18:24, 2年前 , 7^F

01/25 18:24, 7^F

推

lance70176

01/25 19:24, 2年前 , 8^F

01/25 19:24, 8^F

推

holebro

01/25 22:01, 2年前 , 9^F

01/25 22:01, 9^F

→

superpandal

01/25 22:49, 2年前 , 10^F

01/25 22:49, 10^F

→

superpandal

01/25 22:53, 2年前 , 11^F

01/25 22:53, 11^F

推

viper9709

01/25 23:47, 2年前 , 12^F

01/25 23:47, 12^F

推

kyotouma

01/26 00:24, 2年前 , 13^F

01/26 00:24, 13^F

推

vi000246

01/26 00:26, 2年前 , 14^F

01/26 00:26, 14^F

→

vi000246

01/26 00:26, 2年前 , 15^F

01/26 00:26, 15^F

推

andrew771027

01/26 00:53, 2年前 , 16^F

01/26 00:53, 16^F

推

kurtsgm

01/26 03:21, 2年前 , 17^F

01/26 03:21, 17^F

→

kurtsgm

01/26 03:21, 2年前 , 18^F

01/26 03:21, 18^F

→

kurtsgm

01/26 03:22, 2年前 , 19^F

01/26 03:22, 19^F

→

s25g5d4

01/26 03:24, 2年前 , 20^F

01/26 03:24, 20^F

→

s25g5d4

01/26 03:24, 2年前 , 21^F

01/26 03:24, 21^F

→

MoonCode

01/26 03:27, 2年前 , 22^F

01/26 03:27, 22^F

→

s25g5d4

01/26 03:42, 2年前 , 23^F

01/26 03:42, 23^F

→

s25g5d4

01/26 03:42, 2年前 , 24^F

01/26 03:42, 24^F

→

s25g5d4

01/26 03:43, 2年前 , 25^F

01/26 03:43, 25^F

→

s25g5d4

01/26 03:43, 2年前 , 26^F

01/26 03:43, 26^F

→

s25g5d4

01/26 03:44, 2年前 , 27^F

01/26 03:44, 27^F

推

vi000246

01/26 09:54, 2年前 , 28^F

01/26 09:54, 28^F

→

vi000246

01/26 09:54, 2年前 , 29^F

01/26 09:54, 29^F

→

vi000246

01/26 09:54, 2年前 , 30^F

01/26 09:54, 30^F

→

vi000246

01/26 09:56, 2年前 , 31^F

01/26 09:56, 31^F

→

vi000246

01/26 09:56, 2年前 , 32^F

01/26 09:56, 32^F

推

shibin

01/26 18:01, 2年前 , 33^F

01/26 18:01, 33^F

推

syyu641

01/26 18:05, 2年前 , 34^F

01/26 18:05, 34^F

推

CRPKT

01/26 19:14, 2年前 , 35^F

01/26 19:14, 35^F

推

v86861062

01/26 21:45, 2年前 , 36^F

01/26 21:45, 36^F

→

MoonCode

01/26 21:53, 2年前 , 37^F

01/26 21:53, 37^F

→

s25g5d4

01/26 23:47, 2年前 , 38^F

01/26 23:47, 38^F

推

timofEE

01/27 00:04, 2年前 , 39^F

01/27 00:04, 39^F

推

shter

01/27 13:49, 2年前 , 40^F

01/27 13:49, 40^F

→

shter

01/27 13:50, 2年前 , 41^F

01/27 13:50, 41^F

→

shter

01/27 13:51, 2年前 , 42^F

01/27 13:51, 42^F

→

s25g5d4

01/27 14:08, 2年前 , 43^F

01/27 14:08, 43^F

→

s25g5d4

01/27 14:08, 2年前 , 44^F

01/27 14:08, 44^F

→

s25g5d4

01/27 14:08, 2年前 , 45^F

01/27 14:08, 45^F

推

a82611141

01/29 14:12, , 46^F

01/29 14:12, 46^F

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 s25g5d4 的文章

文章代碼(AID): #1ZqDevyT (Soft_Job)

討論串 (同標題文章)

完整討論串 (本文為第 2 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

2年前, 01/27

2年前, 01/25

2年前, 01/19

Soft_Job 近期熱門文章

Re: [請益] 拋棄Python改點其他技能樹？

[ Soft_Job ]

HZYSoft

5小時前, 12/26

Re: [請益] 拋棄Python改點其他技能樹？

[ Soft_Job ]

bxc

8小時前, 12/25

Re: [請益] 拋棄Python改點其他技能樹？

[ Soft_Job ]

SukaBlyat

10小時前, 12/25

[心得] Salesforce 因 AI裁掉4,000人後急踩煞車

17小時前, 12/25

2天前, 12/23

Re: [討論] 有推薦的AI知識來源或討論區嗎

2天前, 12/23

6天前, 12/19

Re: [討論]巨匠SQLserver管理課程尋求合報者

6天前, 12/19

PTT職涯區即時熱門文章

2小時前, 12/26

Re: [新聞] 今年股民平均大賺140萬

[ Stock ]

jacktypetlan

4小時前, 12/26

106

[新聞] 買方開始有籌碼了？新北Q3數據揭「量急凍

[ home-sale ]

blargelp

4小時前, 12/26

Re: [心得] 記憶體空頭？朱家泓的技術分析根本都不準

[ Stock ]

tro5000

5小時前, 12/26

Re: [討論] 永豐信用卡交易安全鎖失效

[ creditcard ]

shoko0712

5小時前, 12/25

Re: [請益]有討論如何救生育率的專版嗎?給專家解決

5小時前, 12/25

6小時前, 12/25

[新聞] 三星前高管等10人被起訴涉向中國洩芯片

[ Tech_Job ]

createlight

6小時前, 12/25

更多即時熱門文章 >>

‣ 返回看板[ Soft_Job ] 工作

‣ 更多 s25g5d4 的文章

文章代碼(AID): #1ZqDevyT (Soft_Job)