電腦的存儲空間不夠就加硬盤唄,頭條的存儲服務器也是一樣的方式擴容。
字節跳動在2020年春季招聘廣告中披露:擁有42萬+臺服務器,每天新增存儲30PB。
PB是個什么概念?
計算機的存儲單位一般有B、KB、MB、GB、TB、PB、EB、ZB、YB、BB,它們之間的換算關系如下:
1KB=1024B;
1MB=1024KB;
1GB=1024MB;
1TB=1024GB;
1PB=1024TB;
后面的以此類推。
字節跳動基礎架構部門各技術團隊曾經在2020年初發文介紹過字節跳動的特色HDFS。
從集群規模和數據量來說,字節跳動的HDFS平臺已經成長為總數幾萬臺服務器的大平臺,支持了EB級別的數據量。HDFS是業界使用最廣泛的開源分布式文件系統。原理和架構和谷歌的GFS基本一致。
字節跳動已經應用HDFS非常長的時間了,隨著抖音、、西瓜視頻、火山小視頻等業務的快速擴張,原來的HDFS的集群從幾百臺,迅速突破千臺和萬臺的規模。可想而知字節跳動的存儲壓力有多大,可能正在奔著ZB級發展。傳統的塊存儲、文件存儲肯定無法滿足字節跳動的需求,分布式存儲結構的對象存儲才能緩解字節跳動的壓力,因為ZB級存儲規劃的重點在于如何降低存儲成本。
這么多的服務器集群應該放在哪里?
服務器集群自然是要放在大型的數據中心。數據中心可以理解為一個超大的場所,里面塞滿了機柜,而機柜里面塞滿了服務器和交換機,服務器里面又塞滿了硬盤。
據數據顯示,2017年年初的時候字節跳動只有2~3萬臺服務器,2018年服務器數量猛增到17萬臺,2020年就超過了42萬臺。早期的時候字節跳動采用的數據中心租賃的模式,但到了最后不得不自建數據中心,而且還要速度快,僅用了7個月的時間,就在張家口市懷來縣建立了第一個屬于字節跳動自己的數據中心。
字節跳動從2018年9月在懷來建立數據中心以來,在懷來、上海、南通、清遠、深圳等地都有數據中心增量需求以滿足業務爆炸式增長。目前字節跳動有秦淮數據和中聯數據這兩個主要的IDC供應商。
其中秦淮數據供應了字節跳動58%的IDC機柜數量。秦淮數據的成長依賴字節跳動,2018-2020年H1,秦淮數據的營收分別為9848.4萬元、8.53億元、8.1億元,2019年總營收同比增長766%,其中2019年和今年的上半年,字節跳動給秦淮數據分別貢獻了68.2%和81.6%的營收收入。字節跳動簡直是給秦淮數據裝了渦輪增壓,大樹底下好乘涼,秦淮數據中心也要上市了。
內容是字節跳動的根基
據投資人和內部消息將字節跳動2019的營收定在1040億至1400億人民幣,超過了Uber、Snapchat和Twitter的綜合,廣告收入也超越了騰訊,僅次于阿里巴巴。
在生產的眾多APP中,和抖音共享了絕大多數的營收收入,它兩都是基于內容,推薦給用戶感興趣的內容,而這些內容不管是以文字、短視頻、視頻的形式出現,都是用戶自己生產的。
所以我們不必擔心的服務器不夠用,不夠用可以加,并不是加1臺2臺,而是加一個數據集群,再不夠就加數據中心。只要有龐大的用戶群,錢到位,存儲就沒有上限。
以上個人淺見,歡迎批評指正。
認同我的看法,請點個贊再走,感謝!
喜歡我的,請關注我,再次感謝!