欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

mysql哈希查詢,80億個整數中找到出現次數最多的數

林子帆2年前24瀏覽0評論
mysql哈希查詢,80億個整數中找到出現次數最多的數?

需求:

使用2G的內存,找出80億個數字中出現最多的數字。

假設:

整數為4字節(2^32=4G),即最大40多億。所有的數字有80億個。所有數字在硬盤中,本身不會占用內存。所用內存為2G多一些,例如有限的變量。但多出的內存和2G相比可以忽略不計。

設計:

80億的計數可以用4字節保存(2^32=4G)。因為如果計數超過一半,則表明該數字一定是出現最多的。2G的內存約可以保存5億多數字的計數(2G/4=512M)。

也就是說,將2G的內存分成單位為4字節的數組,可以一次獲得0~5億多之間出現最多的數字。

步驟:

順序掃描80億個數字,忽略0~512M之外的數字,每個數字N的出現個數累加存放在第N個數組元素中。最后將最出現最多的數字及其次數保存起來,出現并列第一時,只保存第一個數字。如果過程中某數字出現個數超過40億,則直接結束。再次掃描所有數字,此次忽略512M~1G之外的數字。每個數字N的出現個數累加存放在第N-512M個數組元素中。本輪所獲得的數字的出現個數和第一輪結果比較,保存較大的那個。由于整數取值范圍為4G,所以最多掃描8次后即可獲得最終結果。

問題:

如果整數長度為8字節,則需要掃描約300多億次(2^64/512M=2^40)。所以此算法并不適用于8字節的整數。

討論:

當數字足夠多,且數字取值范圍足夠大時,以有限內存獲取出現次數最多的數字幾乎是不可能的。因為數字的取值范圍極大,且數字極多,任何哈希或其它分片的算法都有可能出現極端情況,導致分片數據過多而無法一次性導入內存計算。除非我們預先知道部分數字規律,否則考慮到效率,應該只會要求得到近似結果。