在系統調校的一開始, 我一定會問大家一個問題: "系統負荷 60% 是過高還是過低呢? 系統負荷 6% 是過高還是過低呢?" 當然這個 "過高過低" 指的是一種不正常的現像, 而在之前要有一個前提: "何謂不正常?", 所以就要知道這系統的歷史記錄, 一台機器平常都是 80% 在跑, 現在只有 60% 負荷, 表示有甚麼工作沒在動了, 而若是平常一台機器負荷還不到 1%, 現在跑到 6%, 一定發生甚麼問題.
因此, 歷史資料對於我們的判斷是相當重要的, 尤其在很多可以量化的時間序列來看, 要搜集與儲存這些資料是相當重要的, 但接下來的就是要去判斷, 因為這判斷未來所須要的資訊就是來自於過去, 加上自己的想像與經驗(模型), 這在資料探勘中, 就是屬於資料搜集, 資料清理對接下來的資料探勘的重要性.
但在之前, 到底怎樣的判斷 (探勘) 是對或錯呢? 我常常說, 資料探勘所知道的可能是大家早就已經知道的東西, 只是要在短時間內從這麼大量的資訊做出大量的決策是人做不到的, 即使這事可能是由人來做是最好的, 所以電腦只是來輔助人的判斷, 而在真的去 "處理/探勘" 之前, 最直接的方法就是: "Data Presentation/資料呈現".
說到這些數字與資料的呈現, 最常用的是表格與圖型, 但說到要能夠直覺的一目了然, 還是要從圖型來看, 因此我常會要求用 MRTG 或 RRDTools 來做出一個基本的圖, 因為這是輔助判斷的最好方式.
我常會說, 人眼與心智是最好的判斷系統, 就像上一張圖, 這是一個歷史資料圖, 若我們知道當上面的線圖接近到 100 時系統就會有問題, 那看了這張圖, 你認為合理的狀況這三五天內會不會出問題呢? 若是用電腦的模型來看至少有兩種方式:
1. 迴歸: 就上圖一算, 數字的變化是往下降的, 說不定過不久是 0. (黃色線)
2. 平均: 目前剛好是平均, 所以應該沒甚麼大變化. (藍色線)
但我們人眼一看就知道, 趨勢不是紅線就是淺藍的線, 不應該是黃色或藍色, 若是淺藍的話, 大約 5 天就會出問題, 若是要樂觀一點來看, 紅色會出問題的日期還要 10 幾天, 所以還有更多的時間, 但出問題是必然, 只是若用上面兩個常用的模型來預測, 往往會失準, 但相較之下畫出圖後用人來看反倒是最準的.
在上一篇的 "氣象資料探勘" 的文章中, 收集資料後, 當然就是要做進一步的分析與預測, 但新的模型與方法找出來至少要一段時間, 因此在之前想要讓大家知道誰預測比較準確, 最簡單的方式就是畫出圖來, 這就是明天各家氣象預測的歷史軌跡圖:
這張圖可以看得出來除了 The Weather Channel 在高溫在今天有下修外 (大概是昨天上修太多了) , 大家都是維持往上修正, 所以當大家看到各家的天氣預測, 應該心裏有個底, 就這個趨勢來看溫度不太會比預期得還要低才對, 當然這也是除了預測外, 若能知道 "預測的歷史趨勢變化" , 在對於這種有 "時間性" 的預測往往會有更準確的感覺, 這也是有趣的地方.
當然這只是一個示範, 而這計劃目前暫時定名 "神貘天氣呀", 這說是 "甚麼天氣呀" 更應該是說我跟 "紅色死神" 一個小小合作發想的作品, 除了希望做出更個人化, 更人性的預測外, 也打算做 iphone/ipad 的 app 來讓大家玩, 所以有甚麼建議請大家多跟我或死神說.
2011年3月19日 星期六
訂閱:
張貼留言 (Atom)
熱門文章
-
原本以為這程式是相當難寫的, 但在 AM 4:00 洗澡的時候, 仔細想想並不困難, 但應該說不困難的是在抓取, 但要顯示出有價值與意義的排行榜是相對困難的.... 後來花了不到半小時就有個雛型, 接下來就是顯示這排行榜, 而在昨天睡前 (AM 5:00) 時, 只是一個最近抓到...
-
現在是 3:42 分, 該睡了, 但一直想寫篇文章但都一直提不起勁, 大概是為了準備星期四博客來的會議, 讓整個心態與作息全部亂了, 在此時蛋捲個人站又掛了, 讓我的情續大概到了蠻低的低潮吧... 整個星期六日沒甚麼精神做事, 事實上大約在上星期二似乎就隨著部落格溫度計進到低點,...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
基本上我是屬於逃避加無所謂鄉愿型的人, 所以即使罵我我也很難生氣, 但還是會難過, 只是比較不會生氣... 所以這次會把回應關起來, 當然不是有誰在說我壞話, 因為這很常見也很習慣, 但最近真的 Spam 廣告訊息真的太多了, 所以先將回應暫時設成 "審核制"...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波... 這兩件事剛好都是 "言論自由" 很好的例子, 一個是...
-
沒有足夠資訊所做的判斷, 只是又再次增加錯誤的決策罷了.... 楊威利, 前十三艦隊軍團長 我們都知道要看一個網站經營, 最直接的就是看使用量或業績/利潤, 但這些只是最後的結果, 要知道如何改善, 還是須要很多細節去發現如何做, 網點就是因為這樣做出來的網...
-
從分家到現在, 我還是維持著兩個都有在更新的狀態, ... 也因為身份的關係, 也沒去說那家比較好... 但當天空吃下蕃薯藤後, 有好有壞, 但大多是壞處.. 1. 自由欄位最多 10 個, 事實上蠻不夠用的... 2. 輸入資料無法全選, 必須去動滑鼠去選擇... 3. 引用似...
-
很多人說 Google 會跳舞, 但事實上是真的嗎? 我們從部落格觀察來看 " 不只是捷運日記 " 的數字吧.. 日期 Google Page Google and Yahoo Link 目前 242 / 576 723 / 83440 ...
-
這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定. 而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就...
沒有留言:
張貼留言