[心得] 新聞網站技術細節分析

看板Soft_Job (軟體人)作者 (小璋丸)時間7年前 (2018/11/08 01:11), 7年前編輯推噓4(401)
留言5則, 5人參與, 7年前最新討論串1/1
最近嘗試把新聞爬蟲做得系統化,也發現各新聞網站的技術問題 大致上整理了兩份表格,可以知道有哪些技術債還沒還 如果想去這些新聞媒體 coding 可以推測要拆的雷 https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md 如果覺得這爬蟲有用,也歡迎抓來玩玩 只要在 Python 3.5 以上這樣裝就可以了 pip3 install twnews 詳細請見 https://pypi.org/project/twnews/ -- 世界越快 心則慢 網路越慢 心則快 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.34.64.93 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1541610687.A.C12.html ※ 編輯: tacovirus (1.34.64.93), 11/08/2018 01:19:19

11/08 02:00, 7年前 , 1F
推推推
11/08 02:00, 1F

11/08 09:42, 7年前 , 2F
請問有效率是指什麼?
11/08 09:42, 2F
有效內容率 = 新聞實質內容 / 網頁位元組數 廣告 Script,多餘的 HTML 語法,是主要因素

11/08 10:29, 7年前 , 3F
應該大部分都有RSS可以訂閱
11/08 10:29, 3F

11/08 14:36, 7年前 , 4F
推! 新聞分解最完整的竟然是聯合跟中時...慘
11/08 14:36, 4F
※ 編輯: tacovirus (1.34.64.93), 11/10/2018 01:42:10

11/11 18:57, 7年前 , 5F
不錯呦。收了。多謝。
11/11 18:57, 5F
文章代碼(AID): #1Runo_mI (Soft_Job)
文章代碼(AID): #1Runo_mI (Soft_Job)