我們的第一個問題是“有問題嗎”。如前所述,這種監控指標并不多,大約三到七種,它們既能提供預測性的指標,又能提供當前的指標,用于說明即將有問題或現在已經有問題了。由于我們要跟蹤的項目數量較少,所以數據保留應該不是個大問題。最好能每分鐘或每小時繪制一次這種數據,并至少與前兩周中相似時間內的數據進行對比。如果今天是周二,那么我們可能需要前兩個周二的有價值的數據。也許我們只需保留前兩周的數據即可,但在我們匯總數據之前,也可以把范圍擴展到保留一個月的數據。從長遠來看,這些數據不會占用大量空間。此外,在預測與確定是否要發生問題或已經發生了問題方面,這些數據會給我們節省很多時間。
接下來我們要問的問題是“哪里有問題”。我們的金字塔表明,盡管問題的具體程度在縮小,但數據量卻在增長。這應該弓起我們的注意,因為我們要實現這一點,就需要更多的監控指標。這種監控指標的數量可能在10到100之間,遠遠多于我們原始的監控指標。在非常大型的復雜的分布式系統中,監控指標的數量可能更多。我們仍然需要與以前相似日期中的數據進行比較,理想狀況是分層對比。但在我們的匯總和歸檔/刪除策略中,我們需要激進得多。理想的做法是,我們首先按照小時匯總數據,然后把數據納人均線的計算。也許我們會繪制和保留圖形,而隨著時間逐漸刪除原始數據。我們當然不想無限制地保存原始數據,因為它們中的大多數再被用到的可能性很低,因而價值很低,成本卻很高。
最后,我們要問的是“什么問題”。我們所需的網站建設監控指標數比上一個監控方案又至少提高了一個數量級。我們會加上原始輸出日志、錯誤日志以及其他數據。這類數據增加得很快,尤其是在一個對話多的環境中。我們可能希望保留兩周的數據,這里假設了從兩周的數據中能抓住大部分問題。也許對于保留什么和刪除什么你有更好的信息,但我們要強調的是,你不能要求隨時隨地都可以檢查任何指標,這會有損股東價值,因為這種要求幾乎需要無窮多的花費,而得到的回報卻非常非常低。
本文地址:http://m.knowyourextract.com//article/3907.html