欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

mysql遞歸查詢速度,大數(shù)據(jù)有哪些技術(shù)呢

mysql遞歸查詢速度,大數(shù)據(jù)有哪些技術(shù)呢?

就以悟空問答為例說說大數(shù)據(jù)的故事。以下說的數(shù)字都不是真實(shí)的,都是我的假設(shè)。

比如每天都有1億的用戶在悟空問答上回答問題或者閱讀問答。

每天產(chǎn)生的內(nèi)容

假設(shè)平均有1000萬的用戶每天回答一個(gè)問題。一個(gè)問題平均有1000的字, 平均一個(gè)漢字占2個(gè)字節(jié)byte,三張圖片, 平均一帳圖片300KB。那么一天的數(shù)據(jù)量就是:

文字總量:10,000,000 * 1,000 * 2 B = 20 GB

圖片總量: 10,000,000 * 3 * 300KB = 9 TB

為了收集用戶行為,所有的進(jìn)出悟空問答頁面的用戶。點(diǎn)擊,查詢,停留,點(diǎn)贊,轉(zhuǎn)發(fā),收藏都會(huì)產(chǎn)生一條記錄存儲(chǔ)下來。這個(gè)量級(jí)更大。

所以粗略估計(jì)一天20TB的數(shù)據(jù)量. 一般的PC電腦配置大概1TB,一天就需要20臺(tái)PC的存儲(chǔ)。

如果一個(gè)月的,一年的數(shù)據(jù)可以算一下有多少。傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)在量上就很難做到。

另外這些數(shù)據(jù)都是文檔類型的數(shù)據(jù)。需要各種不同的存儲(chǔ)系統(tǒng)支持,比如NoSQL數(shù)據(jù)庫。

需要分布式數(shù)據(jù)存儲(chǔ),比如Hadoop的HDFS。

數(shù)據(jù)的流動(dòng)

上述1000萬個(gè)答案,會(huì)有1億的人閱讀。提供服務(wù)的系統(tǒng)成百上千。這些數(shù)據(jù)需要在網(wǎng)上各個(gè)系統(tǒng)間來回傳播。需要消息系統(tǒng)比如Kafka。

在線用戶量

同時(shí)在線的用戶量在高峰時(shí)可能達(dá)到幾千萬。如此高的訪問量需要數(shù)前臺(tái)服務(wù)器同時(shí)提供一致的服務(wù)。為了給用戶提供秒級(jí)的服務(wù)體現(xiàn),需要加緩存系統(tǒng)比如redis。

機(jī)器學(xué)習(xí),智能推薦

所有的內(nèi)容包括圖片都會(huì)還用來機(jī)器學(xué)習(xí)的分析,從而得到每個(gè)用戶的喜好,給用戶推薦合適的內(nèi)容和廣告。還有如此大量的數(shù)據(jù),必須實(shí)時(shí)的分析,審核,審核通過才能發(fā)布,人工審核肯定做不到,必須利用機(jī)器來智能分析,需要模式識(shí)別,機(jī)器學(xué)習(xí),深度學(xué)習(xí)。實(shí)時(shí)計(jì)算需要Spark,F(xiàn)link等流式計(jì)算技術(shù)。

服務(wù)器的管理

幾千臺(tái)服務(wù)器,協(xié)同工作。網(wǎng)絡(luò)和硬件會(huì)經(jīng)常出問題。這么多的資源能夠得到有效利用需要利用云計(jì)算技術(shù),K8S等容器管理工具。還需要分布式系統(tǒng)的可靠性和容災(zāi)技術(shù)。

本人,@小馬過河Vizit,專注于分布式系統(tǒng)原理和實(shí)踐分享。希望利用動(dòng)畫生動(dòng)而又準(zhǔn)確的演示抽象的原理。歡迎關(guān)注。

關(guān)于我的名字。小馬過河Vizit,意為凡事像小馬過河一樣,需要自己親自嘗試,探索才能獲得樂趣和新知。Vizit是指Visualize it的縮寫。一圖勝千言,希望可以利用動(dòng)畫來可視化一些抽象的原理。