1、監控系統概念
監控系統應用在監控硬件、軟件和業務上,并及時獲取相應的數據并分析保存數據,發送報警通知管理者,并自動做出相應的處理,通過接口展示以利于運維人員分析,保證業務的正常運行。
2、運維監控系統具備以下幾個模塊:
采樣:從被監控主機上周期性地獲取某個關注指標相關的數據,常見獲取數據通道有:ssh/telnet、agent、IPMI、SNMP、JMX等等
存儲:用于存儲被監控主機采樣的數據和分析的數據,利于調用和分析,常用的有mysql、mariadb等數據庫
數據:分析被監控主機采樣數據,計算出歷史數據、趨勢數據、速率、最大最小值等等。
展示:將被監控主機的數據通過圖表方式展現出來,利于觀察比對,常見的展示接口有:webGUI、GUI、APP等等。
報警:當被監控主機發生異常時,系統用于通知相關人員的報警媒介。常用的報警媒介有:郵件、短信、微信或通過腳本實施。
3、被監控對象: 主機、服務器、交換機、路由器、ups等
NMS:網絡監控主機NMS是移動通信網中的網絡管理系統,它的管理對象可以包括網絡中所有的實體,如:網絡設備、應用程序、服務器系統、路由器、交換機、HUB、輔助設備(如UPS電源)等,給網絡系統管理員提供一個全系統的網絡視圖。
4、監控系統采取的數據通道
ssh/telnet:安全傳輸協議
agent方式:代理方式,由監控主機(master)和安裝代理進程的被監控主機(agent)組成
ipmi:因特爾智慧平臺,硬件監控接口
snmp:簡單網絡管理協議,版本有 v1,v2(community ,pulic)v3
JMX:java管理擴展
jvm:監控java虛擬機
5、儲存系統
歷史數據 :每次采樣的結果。保存時長較短
趨勢數據: 聚合數據,保存時長較長周期內的數據
存儲系統:
關系型數據庫: mysql pgsql oracle
rrd: roudrobin database
nosql:redis、mongo、時間序列數據庫