Re: 請益Request爬蟲

看板Soft_Job (軟體人)作者 (function(){})()時間1年前 (2023/01/25 15:28), 編輯推噓20(20025)
留言45則, 22人參與, 1年前最新討論串2/3 (看更多)
手機打字不想打太多 一般瀏覽器打開頁面可以分成幾個步驟: 1. 請求 HTML 2. 解析 HTML 並下載 assets (img, css, js) 3. 執行 js 4. 渲染 DOM 之後就是一直 3 4 按需執行,有動態內容可能還會有 2 當然,實際上的渲染執行步驟比這複雜的多 Selenium 等爬蟲最早是透過訂製的 Chromium 在不同階段 存取頁面中的 DOM,本質上還是一個瀏覽器在讀取-解析-執行 後來有穩定 API 與 headless 模式以後,Chrome/Chromium/ Firefox 等等主流瀏覽器幾乎都能被直接驅動 扯遠了,你說得 requests 應該是指 Python 的 Requests 函式庫?那它只有執行上面提到的 1,什麼東西都拿不到 是正常的。現代網頁開發已走向 SPA/前後端分離,你打開 網頁只有給你一個骨架與 js 去執行動態內容,所以你必須 執行上面說的 234 才能得到最終使用者看到的內容。 一般來說寫爬蟲要快都是去拆 API 來看,不是很複雜的 內容就是自己模擬請求直戳 API,在沒有公開 API 文件的 情況下就有如逆向工程般麻煩。你必須知道他的 session 登入端點在哪,用 cookie session 還是 JWT 還是自行開發, 之後所有請求都要帶登入驗證 token。然後你還要知道戳 哪支 API 才會取得你要的內容,看是 JSON 還是 XML 還是其他奇奇怪怪格式,解析完才能用取得的資料。 次一級是用輕量級的 browser emulator 去模擬瀏覽器產生 DOM,再去爬模擬的 DOM 內容。因為原生語言優勢, 這種通常都是直接寫 Node.js 配 jsdom 去執行。 這邊必須要注意瀏覽器內的 js 是在沙箱內執行的,可以用 的 API 很少,但用 nodejs 執行外部來源的 js 就要注意 RCE 等安全問題。 最後就是 Selenium 這種用真正的瀏覽器跑頁面渲染, 相容性最好也安全,任意的 js 程式碼被瀏覽器包裝在 瀏覽器內部,不至於輕易爆破主機,只是速度也最慢。 再來就是看它會不會彈出一個瀏覽器視窗,如果會的話 代表你沒有開 headless mode,有開速度也會快不少... 註:先聲明我不會寫 python,沒用過 Selenium, 一路走來用過 PhantomJS、cheerio、puppeteer 直到現在的 jsdom -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.9.185.214 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1674631737.A.F1D.html

01/25 15:50, 1年前 , 1F
還是很多
01/25 15:50, 1F

01/25 15:55, 1年前 , 2F
推推
01/25 15:55, 2F

01/25 16:58, 1年前 , 3F
01/25 16:58, 3F

01/25 17:57, 1年前 , 4F
同意一樓;還在過年;推有心
01/25 17:57, 4F

01/25 18:14, 1年前 , 5F
推一個 go-rod + goquery 可以看看, 比Python Selenium
01/25 18:14, 5F

01/25 18:14, 1年前 , 6F
快得多
01/25 18:14, 6F

01/25 18:24, 1年前 , 7F
還是打很多 讚讚
01/25 18:24, 7F

01/25 19:24, 1年前 , 8F
認真推 最近也在看點你說的方式
01/25 19:24, 8F

01/25 22:01, 1年前 , 9F
Python+selenium最好寫 開心
01/25 22:01, 9F

01/25 22:49, 1年前 , 10F
很常識 建議還是自己刻輪子以符合需求
01/25 22:49, 10F

01/25 22:53, 1年前 , 11F
我的話直接用瀏覽器
01/25 22:53, 11F

01/25 23:47, 1年前 , 12F
推分享
01/25 23:47, 12F

01/26 00:24, 1年前 , 13F
用心推
01/26 00:24, 13F

01/26 00:26, 1年前 , 14F
我都是抓html用正規表達式硬幹 現在有dom parser的lib
01/26 00:26, 14F

01/26 00:26, 1年前 , 15F
方便多了
01/26 00:26, 15F

01/26 00:53, 1年前 , 16F
01/26 00:53, 16F

01/26 03:21, 1年前 , 17F
如果回的是明文的json的話倒還是好處理 從瀏覽器console
01/26 03:21, 17F

01/26 03:21, 1年前 , 18F
都還是看得出個端倪 之前遇過某些網站回來居然是打亂的
01/26 03:21, 18F

01/26 03:22, 1年前 , 19F
猜不出怎麼解密的情況下實在不敢再投入時間下去try
01/26 03:22, 19F

01/26 03:24, 1年前 , 20F
遊戲業很愛用 AES 加密,再來有些會用 msgpack 或 protob
01/26 03:24, 20F

01/26 03:24, 1年前 , 21F
uf 讓你猜不到 encoding,猜到了也拿不到 key
01/26 03:24, 21F

01/26 03:27, 1年前 , 22F
為什麼會拿不到 key 阿 @@?
01/26 03:27, 22F

01/26 03:42, 1年前 , 23F
protobuf 只有序列號沒有 key name,要解欄位還要先拿到
01/26 03:42, 23F

01/26 03:42, 1年前 , 24F
proto 檔
01/26 03:42, 24F

01/26 03:43, 1年前 , 25F
當然你也可以 argue 前端沒有甚麼真的加密,不管 AES 解
01/26 03:43, 25F

01/26 03:43, 1年前 , 26F
密的金鑰還是 proto 定義都有辦法撈出來,只是做個爬蟲有
01/26 03:43, 26F

01/26 03:44, 1年前 , 27F
沒有必要逆向工程到這麼深就是了... XD
01/26 03:44, 27F

01/26 09:54, 1年前 , 28F
return 亂碼是滿常見的反爬蟲 在前端加解密只是多了一
01/26 09:54, 28F

01/26 09:54, 1年前 , 29F
些步驟 現在有能在後端執行js的lib ,這類反爬蟲也比較
01/26 09:54, 29F

01/26 09:54, 1年前 , 30F
好解了
01/26 09:54, 30F

01/26 09:56, 1年前 , 31F
以前要一行一行執行js的code看亂碼是怎麼還原的 然後在
01/26 09:56, 31F

01/26 09:56, 1年前 , 32F
後端寫出一樣的演算法
01/26 09:56, 32F

01/26 18:01, 1年前 , 33F
01/26 18:01, 33F

01/26 18:05, 1年前 , 34F
推用心
01/26 18:05, 34F

01/26 19:14, 1年前 , 35F
jsdom 建議不要,行為比真 DOM 差太遠,速度快不了多少
01/26 19:14, 35F

01/26 21:45, 1年前 , 36F
推推
01/26 21:45, 36F

01/26 21:53, 1年前 , 37F
回 s25g5d4 js 的逆向沒有倒多複雜吧
01/26 21:53, 37F

01/26 23:47, 1年前 , 38F
沒有很難跟要不要花時間拆下去是兩回事阿
01/26 23:47, 38F

01/27 00:04, 1年前 , 39F
推好心
01/27 00:04, 39F

01/27 13:49, 1年前 , 40F
懷念PhantomJS,現在用 Node.js + puppeteer
01/27 13:49, 40F

01/27 13:50, 1年前 , 41F
說實話 Node.js 去操作 DOM 對前端工程師還是最直覺
01/27 13:50, 41F

01/27 13:51, 1年前 , 42F
不管是用來爬蟲還是做自動化測試
01/27 13:51, 42F

01/27 14:08, 1年前 , 43F
以前在圖書館打工寫過 phantomjs + firefox~ 雖然我本來
01/27 14:08, 43F

01/27 14:08, 1年前 , 44F
就是 fx 使用者,但當時會用 fx 還是因為圖書館電腦還在
01/27 14:08, 44F

01/27 14:08, 1年前 , 45F
winXP 沒辦法裝 Chrome XDD
01/27 14:08, 45F
文章代碼(AID): #1ZqDevyT (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1ZqDevyT (Soft_Job)