Re: 請教一些面試問題

看板Oversea_Job (海外工作)作者時間17年前 (2007/08/24 17:53), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串4/8 (看更多)
※ 引述《Baudelaire.bbs@ptt.cc (遺憾太常。)》之銘言: : ※ 引述《LINC.bbs@ptt3.cc (Go cubs!)》之銘言: : : 第二道題: : : How to fast check if a URL is visited by web crawler? : : 我看到的解法: hash table (有這麼簡單嗎@@) : : 直覺上來說好像不對勁 : : 一個URL假設是20 char, 算20 bytes : : 假設Internet有5 billion pages -> 5 * 20 billion bytes = 100 billion bytes : : = 100 GB : : 100GB(至少) hastable? 有沒搞錯? : : 我查了一下wikipedia 上面也是說Google有個URL server專門在作這個URL revisit : : check : : 請問真的是用Hashing嗎 還是Distributed Hashing?? : 我會設計的方法: : URL的有效字元 A-Z a-z 加上一些符號,大概總共算是60個symbol, : n0*60^0+n1*60^1+n2*60^2+n3*60^3+n4*60^4+...+ni*60^i : 不過這個數字大的一塌糊塗,所以不是什麼好方法; : 如果不想要collision的話,資料量可能就是那麼大。 : 至於partition的話,用開頭字母就可以作uniform dist.了。 用開頭字母的話大概會看到一堆http, www之類的東西..然後所有的東西都要放在同一個 partition, 用整個url算hash code可能會好一點 -- ※ 發信站: 批踢踢參(ptt3.cc) ◆ From: 64.236.139.123
文章代碼(AID): #16pggp00 (Oversea_Job)
文章代碼(AID): #16pggp00 (Oversea_Job)