上一篇講到我們國家的中央氣象局的預測準確率, 本來以為不會多好, 後來發現事實上還不會太糟, 甚至可以說是在 A 段班的, 而我一直沒寫下雨的準確率時, 認為這個應該大家都有 8 成到 9 成的準確率, 結果我錯了, 事實上有 6 成到 7 成的準確率而已.
這次的計算因為有點小麻煩, 因為有若是要計算溫度的話, 最簡單的就是用每日的最高跟最低溫做比較, 但每天降雨機率的預測本身就是一個在變動的數字, 每次預測都不太一樣, 但這個並沒有最高最低, 只有全有與全無 (有下雨與沒有下雨), 所以到底要如何去做 KPI 的準確率就讓我想了許久.
最後還是把每次的機率給平均起來, 做為當日的預測, 唯一的問題就是每一個單位預測的方式都不太一樣, 所以要先 Normalization, 而接下的計算就跟溫度的預測差不多了.
說起來溫度的預測是有很多解空間 (可能是 40*40) 的狀況, 但下雨與否的解空間好像只有 2, 也就是有跟沒有下雨, 因此預測起來應該很簡單才對, 且大家都說有下雨預測本來就應該有 8 成以上的準確率來看, 說起來感覺也沒那麼困難, 我本來也不太想把這個差別不大的預測當 KPI, 但現在算一遍後, 發現我錯了, 因為大家多數是在公布下雨機率的情形下, 解空間暴增為 100, 這預測變得沒那麼簡單了.
天氣穩定的話, 說要達到預測率 100% 是不難的 (畢竟解空間只有 2), 且控制在 8 成也是沒問題的, 但天氣一不穩定, 只要超過 3 天以前要預測有沒有下雨似乎比想像中的還要難, 事實上八成準確率指的是昨天預測明天, 但這個 KPI 若是延長到五到十天, 當然困難到就更高了, 下表就是現在檢驗的結果 Snapshot 快照:
而這張圖是取自今天 (7/15) 的 http://weather.datamining.tw/kpirain.php , 並不意外第一名可以是在 8 成以上, 但有時第一名卻不到 6 成, 當然平均起來至少有 5 成以上, 但也常常超過 5 成的誤差, 這代表這預測比猴子還糟糕.
只是目前來看, 我們國家的中央氣象局表現的比溫度的預測還要糟糕, 雖然有 6 成 5 的準確率, 但是排名第三名, 比 Weatherbug 以及對岸來得差, 這可能就有點須要檢討了.
而在完成下雨預測的 KPI 後, 加上溫度的 KPI 就完成檢核點的計算, 而進一步是能不能就這些預測做不同的 View, 也就是說我們可以不做天氣的預測, 畢竟這是專業的, 但我們可以利用資料探勘來計算誰的預測比較準, 這代表的是有沒有可能有更高的準確率呢? 請大家拭目以待吧.
訂閱:
張貼留言 (Atom)
熱門文章
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
又一個是乍看很漂亮, 功能很多, 資料也不少, 但完全沒有經營概念與基礎的網站, 為甚麼政府單位的網站都是這樣阿.... 基本上要討論裏面內容的問題可能討論不完, 我先說以內容與經營相關 SEO 的角度來看這網站的問題: [主要問題] description: ...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
基本上我上一篇的 " 我為甚麼要 Plurk ? " 講出來了用 Plurk 的人並不是很多人都有在經營部落格, 所以前一篇的 " Plurk 的個人 Widget 開始... " 是挺沒有意義的, 因為這 widget 不能放進 plur...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
網路行為真的存在一個未明的兩週週期嗎? 落格溫度計是一個有趣的概念, 因為轉了很多圈... 1. 先算出一個部落格每天的七日平均 2. 然後從這七日平均線圖做迴歸出一個斜率 3. 然後把所有的部落格斜率加總出這個數字 接著我們畫出這數字的分佈, 我驚然發現, 這數字不只不是個隨機...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
昨天終於悠遊卡踩到 6000 次了.. 6000 次 2011/07/28 (1 年 1 個月又 10 天) 5000 次 2010/06/18 (1 年 6 個月又 27 天) 4000 次 2008/11/20 (1 年 8 個月又 13 天) 3000 次 2007/03...
沒有留言:
張貼留言