在系統調校的一開始, 我一定會問大家一個問題: "系統負荷 60% 是過高還是過低呢? 系統負荷 6% 是過高還是過低呢?" 當然這個 "過高過低" 指的是一種不正常的現像, 而在之前要有一個前提: "何謂不正常?", 所以就要知道這系統的歷史記錄, 一台機器平常都是 80% 在跑, 現在只有 60% 負荷, 表示有甚麼工作沒在動了, 而若是平常一台機器負荷還不到 1%, 現在跑到 6%, 一定發生甚麼問題.
因此, 歷史資料對於我們的判斷是相當重要的, 尤其在很多可以量化的時間序列來看, 要搜集與儲存這些資料是相當重要的, 但接下來的就是要去判斷, 因為這判斷未來所須要的資訊就是來自於過去, 加上自己的想像與經驗(模型), 這在資料探勘中, 就是屬於資料搜集, 資料清理對接下來的資料探勘的重要性.
但在之前, 到底怎樣的判斷 (探勘) 是對或錯呢? 我常常說, 資料探勘所知道的可能是大家早就已經知道的東西, 只是要在短時間內從這麼大量的資訊做出大量的決策是人做不到的, 即使這事可能是由人來做是最好的, 所以電腦只是來輔助人的判斷, 而在真的去 "處理/探勘" 之前, 最直接的方法就是: "Data Presentation/資料呈現".
說到這些數字與資料的呈現, 最常用的是表格與圖型, 但說到要能夠直覺的一目了然, 還是要從圖型來看, 因此我常會要求用 MRTG 或 RRDTools 來做出一個基本的圖, 因為這是輔助判斷的最好方式.
我常會說, 人眼與心智是最好的判斷系統, 就像上一張圖, 這是一個歷史資料圖, 若我們知道當上面的線圖接近到 100 時系統就會有問題, 那看了這張圖, 你認為合理的狀況這三五天內會不會出問題呢? 若是用電腦的模型來看至少有兩種方式:
1. 迴歸: 就上圖一算, 數字的變化是往下降的, 說不定過不久是 0. (黃色線)
2. 平均: 目前剛好是平均, 所以應該沒甚麼大變化. (藍色線)
但我們人眼一看就知道, 趨勢不是紅線就是淺藍的線, 不應該是黃色或藍色, 若是淺藍的話, 大約 5 天就會出問題, 若是要樂觀一點來看, 紅色會出問題的日期還要 10 幾天, 所以還有更多的時間, 但出問題是必然, 只是若用上面兩個常用的模型來預測, 往往會失準, 但相較之下畫出圖後用人來看反倒是最準的.
在上一篇的 "氣象資料探勘" 的文章中, 收集資料後, 當然就是要做進一步的分析與預測, 但新的模型與方法找出來至少要一段時間, 因此在之前想要讓大家知道誰預測比較準確, 最簡單的方式就是畫出圖來, 這就是明天各家氣象預測的歷史軌跡圖:
這張圖可以看得出來除了 The Weather Channel 在高溫在今天有下修外 (大概是昨天上修太多了) , 大家都是維持往上修正, 所以當大家看到各家的天氣預測, 應該心裏有個底, 就這個趨勢來看溫度不太會比預期得還要低才對, 當然這也是除了預測外, 若能知道 "預測的歷史趨勢變化" , 在對於這種有 "時間性" 的預測往往會有更準確的感覺, 這也是有趣的地方.
當然這只是一個示範, 而這計劃目前暫時定名 "神貘天氣呀", 這說是 "甚麼天氣呀" 更應該是說我跟 "紅色死神" 一個小小合作發想的作品, 除了希望做出更個人化, 更人性的預測外, 也打算做 iphone/ipad 的 app 來讓大家玩, 所以有甚麼建議請大家多跟我或死神說.
2011年3月19日 星期六
訂閱:
張貼留言 (Atom)
熱門文章
-
說真的, 這次的低潮還算挺久的, 在某方面而言, 在做完 "宅度計" 之後, 就停下來了, 就最後的日期大概是 5/29 號前後吧, ... 這段時間唯一做的大概是 Google Trends 的數字計算, 那時是 6 月 23 日吧, 在之前的 6 月 5 ...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了. 當然 CTR 不是只有注重 SEO 的人才須要注意...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
在過了短暫的墾丁之旅後, 該收心認真工作, 但似乎也只有一個星期... 這段期間因為 Engadget 的大總編 借我 3G Card, 所以在找吃的或住的是有派上用場, 也幾乎是隨時都可以上網, 但卻沒有停下腳步寫任何的 Blog... 但這次很意外的像這樣的 3G 在墾丁所...
-
在部觀門這計劃一開始的時候, 我就發現 New Order 的 Bizarre Love Triangle 這首歌似乎一直被有人查詢, 其中會導到一個朋友的 Blog, 我在想除了這首歌外, 還有那一首能夠如此成為經典呢? 事實上大家知道的絕不是 New Order 的版本, ...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
沒有留言:
張貼留言