2011年3月19日 星期六

從歷史圖型來看數字預測

在系統調校的一開始, 我一定會問大家一個問題: "系統負荷 60% 是過高還是過低呢? 系統負荷 6% 是過高還是過低呢?" 當然這個 "過高過低" 指的是一種不正常的現像, 而在之前要有一個前提: "何謂不正常?", 所以就要知道這系統的歷史記錄, 一台機器平常都是 80% 在跑, 現在只有 60% 負荷, 表示有甚麼工作沒在動了, 而若是平常一台機器負荷還不到 1%, 現在跑到 6%, 一定發生甚麼問題.

因此, 歷史資料對於我們的判斷是相當重要的, 尤其在很多可以量化的時間序列來看, 要搜集與儲存這些資料是相當重要的, 但接下來的就是要去判斷, 因為這判斷未來所須要的資訊就是來自於過去, 加上自己的想像與經驗(模型), 這在資料探勘中, 就是屬於資料搜集, 資料清理對接下來的資料探勘的重要性.

但在之前, 到底怎樣的判斷 (探勘) 是對或錯呢? 我常常說, 資料探勘所知道的可能是大家早就已經知道的東西, 只是要在短時間內從這麼大量的資訊做出大量的決策是人做不到的, 即使這事可能是由人來做是最好的, 所以電腦只是來輔助人的判斷, 而在真的去 "處理/探勘" 之前, 最直接的方法就是: "Data Presentation/資料呈現".

說到這些數字與資料的呈現, 最常用的是表格與圖型, 但說到要能夠直覺的一目了然, 還是要從圖型來看, 因此我常會要求用 MRTG 或 RRDTools 來做出一個基本的圖, 因為這是輔助判斷的最好方式.


我常會說, 人眼與心智是最好的判斷系統, 就像上一張圖, 這是一個歷史資料圖, 若我們知道當上面的線圖接近到 100 時系統就會有問題, 那看了這張圖, 你認為合理的狀況這三五天內會不會出問題呢? 若是用電腦的模型來看至少有兩種方式:

1. 迴歸: 就上圖一算, 數字的變化是往下降的, 說不定過不久是 0. (黃色線)
2. 平均: 目前剛好是平均, 所以應該沒甚麼大變化. (藍色線)

但我們人眼一看就知道, 趨勢不是紅線就是淺藍的線, 不應該是黃色或藍色, 若是淺藍的話, 大約 5 天就會出問題, 若是要樂觀一點來看, 紅色會出問題的日期還要 10 幾天, 所以還有更多的時間, 但出問題是必然, 只是若用上面兩個常用的模型來預測, 往往會失準, 但相較之下畫出圖後用人來看反倒是最準的.

在上一篇的 "氣象資料探勘" 的文章中, 收集資料後, 當然就是要做進一步的分析與預測, 但新的模型與方法找出來至少要一段時間, 因此在之前想要讓大家知道誰預測比較準確, 最簡單的方式就是畫出圖來, 這就是明天各家氣象預測的歷史軌跡圖:



這張圖可以看得出來除了 The Weather Channel 在高溫在今天有下修外 (大概是昨天上修太多了) , 大家都是維持往上修正, 所以當大家看到各家的天氣預測, 應該心裏有個底, 就這個趨勢來看溫度不太會比預期得還要低才對, 當然這也是除了預測外, 若能知道 "預測的歷史趨勢變化" , 在對於這種有 "時間性" 的預測往往會有更準確的感覺, 這也是有趣的地方.

當然這只是一個示範, 而這計劃目前暫時定名 "神貘天氣呀", 這說是 "甚麼天氣呀" 更應該是說我跟 "紅色死神" 一個小小合作發想的作品, 除了希望做出更個人化, 更人性的預測外, 也打算做 iphone/ipad 的 app 來讓大家玩, 所以有甚麼建議請大家多跟我或死神說.

沒有留言:

張貼留言

熱門文章