在 3/21 大概完成了一個初步的心願, 這是從莫拉克之後, 雖說一直想去中央氣象局看能不能做點甚麼貢獻, 但說真的, 我須要學習的東西還很多, 因此只好先自己做吧.
在資料探 勘的假借法? (Data Mining)文章說到, 有時我們無法取得第一手資料, 但我們可以嘗試用有系統, 可以自動化, 較為客觀的第二手資料做 "加工", 獲得要的答案, 就像是我們無法取得台北市交通狀況, 但從網路上公車的行車記錄幾乎就可以算得出來台北交通狀況, 用這個當 KPI 是再真確不過了.
因此若要了解天氣預測的準確與否, 最簡單的就是比較預測與真實的關係, 所以這計劃就產生了前題, 而接下來就是從這二手資料中, 是否可以純用數學模型算出一個比這些天氣預測系統取得更準確的 KPI 呢?
花了 10 天, 終於把這個 Weather DataMining 做個了斷, 嗯, 是基本的雛型, 也就是先定義出預測準確率的 KPI, 這公式很單純就是:
1. 從今天, 昨天, 前天一直到有預測今天氣候的資料做記錄, 跟實際今天的溫度做比對, 最簡單的就是取面積 (積分這差距).
2. 距離越遠的日子, 準確率應該也越低, 所以採取個等比比重做為調整, 且每一個單位並不是擁有相同的預測天數, 所以也要 Normalization (正規化), 目前每早一天, 就比前一天少 10%.
3. 最近這三天的預測應該是要最準確的, 所以我們特別做了個加權, 因為也不是每一個單位都有針對 "今天" 做預測.
最後就以上述的公式定義出溫度預測準確度的 KPI 了.
在Weather DataMining 氣象探勘這篇文章提到, 是否預測穩定度跟準確率相關, 所以我們接下來定義穩定度是甚麼? 穩定代表一定有變化的差距, 目前有幾種可能定義:
1. 當天跟(前一天以前的平均)差距.
2. 當天跟前一天的差距.
3. 當天與前一天的差距以及更之前差距的等比累積再正規化.
而會先試算看看才知道那個較為準確, 說不定實務上又會做綜合指標, 而若能找出穩定度, 又能找出穩定度與準確率的關係, 此時新的預測模型就會出來了.
這個網站最早是我跟紅色死神開始規劃的, 因此想說以我們兩個人的名字命名, 本來最初是想說來個 "紅黑大對抗", 或者是 "SunDog/紅獸" 這樣的想法, 但在偶然之間取最後兩個字, 跟 "什麼" 有相當的諧因, 所以就變成 "神貘天氣", 而最後是想說加個驚歎語, 而原本是叫 "阿", 後來改 "呀", 最後為了配合跟 "WWW" 致敬, 所以就變成 "哇" 了, 因此目前公測的名稱是 "What's the Weather Web (WWW)".
有不少朋友說願意一起來幫忙, 包含如何 Deploy 到 ipad/iphone, 現在已經有個雛型了, 所以準備開始好好的玩了, 我最近就會敲大家了.
(圖例就是網站的圖, 可以看出從當天以前之前每天對溫度預測的變化, 若是當天已經是發生了, 就會有綠色範圍指示真實溫度, 因此可以輕易看出準確率, 而網站網址為 http://weather.datamining.tw 神貘天氣哇)
沒有留言:
張貼留言