由于這些數據存于數據庫中,而且日期是恒定的,所以對這些數據進行跨地域處理或相關性分析就很直接了。
例如,由于節假日期間,新的數碼相機經常被作為禮物贈送,所以,與平時比起來,節假日期間的平均照片上載量有很大增長,就不奇怪了。有了這些數據,我們可以針對相同日期計算出其他值來,所以,我們能夠毫無困難地觀察平均上載大小是如何增加磁盤空間消耗的(因為照片的原始尺寸變大了),從而相應地增加Flickr Pro賬號的訂購量(與免費賬號相比,Pro賬號沒有容量限制)。
有了這些高層數據之后,你的機構中面向產品的那些人對這些數據也抱有極大的興趣,你一點都不用感到驚訝。雖然你可能是用磁盤空間消耗數據為存儲需求做容量規劃,但他們卻另有看法,比如,這些使用情況的數據可以幫助他們做功能發布的時間表。網站使用情況有助于制定產品路線圖,產品路線圖有助于容量規劃,容量規劃有助于預算以及基礎架構的前途,等等。你很慶幸是以一種簡單且可移植的格式存儲這些數據的,因為機構中的任何人都可能用到這些數據。
對于應用層面的數據,最有用的是能夠跟蹤用戶的交互情況。比如一個社會網絡站點,用戶可以與其他用戶成為為“好友”、上載照片,或在其他用戶頁面上發表評論。記錄這些事件是不能用正規的時間間隔的方法的,這與采集CPU測量數據不同,采集CPU數據用的是正規的時間間隔方法一比如說,每隔15秒進行采樣。這種方法與前述將每天發生的事件進行累加的方式也不同。將這些非周期性事件與周期性事件進行相關性分析時,要確保時間尺度是固定的。
Flickr的這種非正規類型的一個例子如下:我們發布了一個功能,讓你導入各種郵件地址簿,并將這些地址簿中的名字及郵箱與你還不是聯系人的網站成員進行關聯,然后批量添加聯系人。如果我們只是將每天產生了多少聯系人進行累加的話,我們在圖上就會看到那個數據點上有個跳變,但這個功能發布后,并沒有看到跳變,在隨后的數小時一直到下周,也都沒有看到。同樣的情況還有用戶對照片進行標注(tagging)的功能。了解這些信息有助于我們將來如何發布網站建設新功能,那就是一在發布功能之前,我們應該準備數據采集(對這些情況而言,就是一張MYSQL的匯總表)。
本文地址:http://m.knowyourextract.com//article/3310.html