在系統調校的一開始, 我一定會問大家一個問題: "系統負荷 60% 是過高還是過低呢? 系統負荷 6% 是過高還是過低呢?" 當然這個 "過高過低" 指的是一種不正常的現像, 而在之前要有一個前提: "何謂不正常?", 所以就要知道這系統的歷史記錄, 一台機器平常都是 80% 在跑, 現在只有 60% 負荷, 表示有甚麼工作沒在動了, 而若是平常一台機器負荷還不到 1%, 現在跑到 6%, 一定發生甚麼問題.
因此, 歷史資料對於我們的判斷是相當重要的, 尤其在很多可以量化的時間序列來看, 要搜集與儲存這些資料是相當重要的, 但接下來的就是要去判斷, 因為這判斷未來所須要的資訊就是來自於過去, 加上自己的想像與經驗(模型), 這在資料探勘中, 就是屬於資料搜集, 資料清理對接下來的資料探勘的重要性.
但在之前, 到底怎樣的判斷 (探勘) 是對或錯呢? 我常常說, 資料探勘所知道的可能是大家早就已經知道的東西, 只是要在短時間內從這麼大量的資訊做出大量的決策是人做不到的, 即使這事可能是由人來做是最好的, 所以電腦只是來輔助人的判斷, 而在真的去 "處理/探勘" 之前, 最直接的方法就是: "Data Presentation/資料呈現".
說到這些數字與資料的呈現, 最常用的是表格與圖型, 但說到要能夠直覺的一目了然, 還是要從圖型來看, 因此我常會要求用 MRTG 或 RRDTools 來做出一個基本的圖, 因為這是輔助判斷的最好方式.
我常會說, 人眼與心智是最好的判斷系統, 就像上一張圖, 這是一個歷史資料圖, 若我們知道當上面的線圖接近到 100 時系統就會有問題, 那看了這張圖, 你認為合理的狀況這三五天內會不會出問題呢? 若是用電腦的模型來看至少有兩種方式:
1. 迴歸: 就上圖一算, 數字的變化是往下降的, 說不定過不久是 0. (黃色線)
2. 平均: 目前剛好是平均, 所以應該沒甚麼大變化. (藍色線)
但我們人眼一看就知道, 趨勢不是紅線就是淺藍的線, 不應該是黃色或藍色, 若是淺藍的話, 大約 5 天就會出問題, 若是要樂觀一點來看, 紅色會出問題的日期還要 10 幾天, 所以還有更多的時間, 但出問題是必然, 只是若用上面兩個常用的模型來預測, 往往會失準, 但相較之下畫出圖後用人來看反倒是最準的.
在上一篇的 "氣象資料探勘" 的文章中, 收集資料後, 當然就是要做進一步的分析與預測, 但新的模型與方法找出來至少要一段時間, 因此在之前想要讓大家知道誰預測比較準確, 最簡單的方式就是畫出圖來, 這就是明天各家氣象預測的歷史軌跡圖:
這張圖可以看得出來除了 The Weather Channel 在高溫在今天有下修外 (大概是昨天上修太多了) , 大家都是維持往上修正, 所以當大家看到各家的天氣預測, 應該心裏有個底, 就這個趨勢來看溫度不太會比預期得還要低才對, 當然這也是除了預測外, 若能知道 "預測的歷史趨勢變化" , 在對於這種有 "時間性" 的預測往往會有更準確的感覺, 這也是有趣的地方.
當然這只是一個示範, 而這計劃目前暫時定名 "神貘天氣呀", 這說是 "甚麼天氣呀" 更應該是說我跟 "紅色死神" 一個小小合作發想的作品, 除了希望做出更個人化, 更人性的預測外, 也打算做 iphone/ipad 的 app 來讓大家玩, 所以有甚麼建議請大家多跟我或死神說.
2011年3月19日 星期六
訂閱:
張貼留言 (Atom)
熱門文章
-
原本以為這程式是相當難寫的, 但在 AM 4:00 洗澡的時候, 仔細想想並不困難, 但應該說不困難的是在抓取, 但要顯示出有價值與意義的排行榜是相對困難的.... 後來花了不到半小時就有個雛型, 接下來就是顯示這排行榜, 而在昨天睡前 (AM 5:00) 時, 只是一個最近抓到...
-
現在是 3:42 分, 該睡了, 但一直想寫篇文章但都一直提不起勁, 大概是為了準備星期四博客來的會議, 讓整個心態與作息全部亂了, 在此時蛋捲個人站又掛了, 讓我的情續大概到了蠻低的低潮吧... 整個星期六日沒甚麼精神做事, 事實上大約在上星期二似乎就隨著部落格溫度計進到低點,...
-
這句話已經喊了不知多久了, 當時聽到 LG 出了一款可以 USB 連結的 LCD, 想說這真的是太好了, ... 但沒想到還沒真的上市就腰斬了(?), 後來找到原來這技術是一家叫 Display Link 的公司, 做的... 而我在兩年多前就開始採用雙螢幕, 而現在若是沒用雙...
-
剛很無聊的把噗浪的關鍵字趨勢圖畫出來, 大家有空可以去看看... 這是以話題的 "使用者比例" 為單位, 來跟自己比較, 若是去看原圖有週曲線, 月曲線以及最近一季的狀況: 但下面的圖當時是畫 4 個月 (因為當時也是這系統開始運作的時候), 以後會改半年. ...
-
從分家到現在, 我還是維持著兩個都有在更新的狀態, ... 也因為身份的關係, 也沒去說那家比較好... 但當天空吃下蕃薯藤後, 有好有壞, 但大多是壞處.. 1. 自由欄位最多 10 個, 事實上蠻不夠用的... 2. 輸入資料無法全選, 必須去動滑鼠去選擇... 3. 引用似...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定. 而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就...
-
基本上我是屬於逃避加無所謂鄉愿型的人, 所以即使罵我我也很難生氣, 但還是會難過, 只是比較不會生氣... 所以這次會把回應關起來, 當然不是有誰在說我壞話, 因為這很常見也很習慣, 但最近真的 Spam 廣告訊息真的太多了, 所以先將回應暫時設成 "審核制"...
-
今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波... 這兩件事剛好都是 "言論自由" 很好的例子, 一個是...
-
我剛去看 iTHome 的部落格後台, 看有那些連結連到我章, 其中一個大陸的 Google Search 我點下去看時愣住了... "點點看" 結果出現: G o o g l e 錯誤 很抱歉... ...您的查詢疑似來自電腦病...
沒有留言:
張貼留言