[心得] 新聞網站技術細節分析
最近嘗試把新聞爬蟲做得系統化,也發現各新聞網站的技術問題
大致上整理了兩份表格,可以知道有哪些技術債還沒還
如果想去這些新聞媒體 coding 可以推測要拆的雷
https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md
如果覺得這爬蟲有用,也歡迎抓來玩玩
只要在 Python 3.5 以上這樣裝就可以了
pip3 install twnews
詳細請見
https://pypi.org/project/twnews/
--
世界越快 心則慢
網路越慢 心則快
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.64.93
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1541610687.A.C12.html
※ 編輯: tacovirus (1.34.64.93), 11/08/2018 01:19:19
推
11/08 02:00,
7年前
, 1F
11/08 02:00, 1F
推
11/08 09:42,
7年前
, 2F
11/08 09:42, 2F
有效內容率 = 新聞實質內容 / 網頁位元組數
廣告 Script,多餘的 HTML 語法,是主要因素
→
11/08 10:29,
7年前
, 3F
11/08 10:29, 3F
推
11/08 14:36,
7年前
, 4F
11/08 14:36, 4F
※ 編輯: tacovirus (1.34.64.93), 11/10/2018 01:42:10
推
11/11 18:57,
7年前
, 5F
11/11 18:57, 5F
Soft_Job 近期熱門文章
PTT職涯區 即時熱門文章