在系統調校的一開始, 我一定會問大家一個問題: "系統負荷 60% 是過高還是過低呢? 系統負荷 6% 是過高還是過低呢?" 當然這個 "過高過低" 指的是一種不正常的現像, 而在之前要有一個前提: "何謂不正常?", 所以就要知道這系統的歷史記錄, 一台機器平常都是 80% 在跑, 現在只有 60% 負荷, 表示有甚麼工作沒在動了, 而若是平常一台機器負荷還不到 1%, 現在跑到 6%, 一定發生甚麼問題.
因此, 歷史資料對於我們的判斷是相當重要的, 尤其在很多可以量化的時間序列來看, 要搜集與儲存這些資料是相當重要的, 但接下來的就是要去判斷, 因為這判斷未來所須要的資訊就是來自於過去, 加上自己的想像與經驗(模型), 這在資料探勘中, 就是屬於資料搜集, 資料清理對接下來的資料探勘的重要性.
但在之前, 到底怎樣的判斷 (探勘) 是對或錯呢? 我常常說, 資料探勘所知道的可能是大家早就已經知道的東西, 只是要在短時間內從這麼大量的資訊做出大量的決策是人做不到的, 即使這事可能是由人來做是最好的, 所以電腦只是來輔助人的判斷, 而在真的去 "處理/探勘" 之前, 最直接的方法就是: "Data Presentation/資料呈現".
說到這些數字與資料的呈現, 最常用的是表格與圖型, 但說到要能夠直覺的一目了然, 還是要從圖型來看, 因此我常會要求用 MRTG 或 RRDTools 來做出一個基本的圖, 因為這是輔助判斷的最好方式.
我常會說, 人眼與心智是最好的判斷系統, 就像上一張圖, 這是一個歷史資料圖, 若我們知道當上面的線圖接近到 100 時系統就會有問題, 那看了這張圖, 你認為合理的狀況這三五天內會不會出問題呢? 若是用電腦的模型來看至少有兩種方式:
1. 迴歸: 就上圖一算, 數字的變化是往下降的, 說不定過不久是 0. (黃色線)
2. 平均: 目前剛好是平均, 所以應該沒甚麼大變化. (藍色線)
但我們人眼一看就知道, 趨勢不是紅線就是淺藍的線, 不應該是黃色或藍色, 若是淺藍的話, 大約 5 天就會出問題, 若是要樂觀一點來看, 紅色會出問題的日期還要 10 幾天, 所以還有更多的時間, 但出問題是必然, 只是若用上面兩個常用的模型來預測, 往往會失準, 但相較之下畫出圖後用人來看反倒是最準的.
在上一篇的 "氣象資料探勘" 的文章中, 收集資料後, 當然就是要做進一步的分析與預測, 但新的模型與方法找出來至少要一段時間, 因此在之前想要讓大家知道誰預測比較準確, 最簡單的方式就是畫出圖來, 這就是明天各家氣象預測的歷史軌跡圖:
這張圖可以看得出來除了 The Weather Channel 在高溫在今天有下修外 (大概是昨天上修太多了) , 大家都是維持往上修正, 所以當大家看到各家的天氣預測, 應該心裏有個底, 就這個趨勢來看溫度不太會比預期得還要低才對, 當然這也是除了預測外, 若能知道 "預測的歷史趨勢變化" , 在對於這種有 "時間性" 的預測往往會有更準確的感覺, 這也是有趣的地方.
當然這只是一個示範, 而這計劃目前暫時定名 "神貘天氣呀", 這說是 "甚麼天氣呀" 更應該是說我跟 "紅色死神" 一個小小合作發想的作品, 除了希望做出更個人化, 更人性的預測外, 也打算做 iphone/ipad 的 app 來讓大家玩, 所以有甚麼建議請大家多跟我或死神說.
2011年3月19日 星期六
訂閱:
張貼留言 (Atom)
熱門文章
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 &...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
這次參與資策會的社群力指標, 在前一篇的講 部落客百傑 的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的...
-
雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了. 這篇文章我早在去年 11 月時就想寫了, ...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
終於收到 活力藥師網 - Yahoo!奇摩部落格 , 來信詢問, 他對於他的 Blog 有如此多的人在觀看, 但名次如此低, 非常不解.... 事實上就記錄來看, 11/05 時是 5081(19.77%) 到 02/04 時是 4270(68.57%) 了, 換句話說是這三...
-
之前寫了一篇 "聲援" Mr.6 的文章, 事實上問我有沒有在看 Mr.6 的文章, 有沒有在去 Mr.6 的聚會, 當然是沒有的, 只是看到很多人為了打壓 Mr.6 Over-Rated (過譽) 而來 Under-Rated (過惡) 想來個持平的說法罷了...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
沒有留言:
張貼留言