大型互聯網公司該如何做好運維管理?
瀉藥。
————————分割線————————
我認為好的運維管理分為內外兩個板塊。對內,我們管理軟件的打包、發布、恢復、備份這幾個重要工作節點;對外,我們要保持服務器的穩定與出問題后的容災方案。最后,要根據公司情況選擇相應的管理工具,我分享下我們公司的整體運維思路吧。(目前線上用戶有20萬左右,日活4萬左右,相比算小公司,但是,思路可以借鑒)。
本來想寫一些關于細節的東西,但是,這樣會顯得很片面,我曾今有幸和谷歌瑞士的技術總監聊過關于運維管理的方法,他告訴我說:“我給你說兩組數據,只要我們能根據自身業務狀況滿足即可”。
這兩組數據分別是:
1.我們谷歌所有產品每年的發布量達到4000多萬次,但運維工程師的工作量并不困難;
2.除了自然災害和斷網,我們的服務器永遠不會崩。
順便說下我們公司用到的工具:
代碼管理工具GitLab、Jenkins、Rancher、zookeeper、kafka、釘釘(webhook通知),還有一些其他的工具就不一一介紹了。
希望能幫助你。
上一篇建筑業有哪個互聯網