2011年7月19日 星期二

Weather Mining, 到底有沒有下雨呢? 神貘天氣呀~~

(這篇是寫給在氣象局任職的某噗友看的, 若對這議題沒興趣的人可以跳過)

目前神貘天氣取樣了六個單位的預測, 希望以後還會更多, 但事實上要去 "Normalization/統整" 這些預報是相當不容易的, 所以一開始就是抓 Raw Data/原始資料.

一開始就做的溫度 KPI 是較簡單的, 就是預測當天最高溫與最低溫, 但這麼簡單的預測就有幾種變化:

1. 最高溫最低溫若是在預測多次不一樣的話, 就取最高值與最低值來計算.

2. 中國氣象台是把最高溫設為白天的溫度, 最低溫設晚上的溫度, 而晚上白天並沒有各自的最高溫與最低溫.

3. 比較好的預測是以小時為單位, 而不是以每天為單位, 所以本來有比較完整的預測為了比較就簡化成一天, 真對不起這些人.

4. 除了真實的溫度外, 還有 "Feel Like/感覺" 的溫度, 因為溫度也包含濕度, 風速等等的綜合評斷, 只是很可惜無法做為 KPI, 不然是個好東西.

5. Weather Bug 還有 "Dew Point/露點" 的預測, 風量與風向的預測也不少, 這個都是種參考.

6. 台灣中央氣象局等也直接寫出 "感覺", 像舒適, 等, 這個很難去量化當 KPI.

以上來看就知道單純就最高溫與最低溫就有很多種觀點, 而有沒有下雨就更麻煩了.

1. 最常見的就是下雨機率, 這個理論上是 0% 或 100% 機會最高的, 但實務上 0% 是偶而會見到, 100% 是不太可能出現, 因為這個還有時間與地區的因素考量.

2. 若比較模糊的預測就是寫 "晴時多雲偶陣雨" 這樣的描述時, 就只好去抓 "雨" 這個字, 或者是國外會寫 Shower, Rain 等等, 若甚麼都沒寫就只能當 0%, 若有寫到的話就當 100%.

3. 如同溫度一樣, 若一天有不同的預測, 就將這降雨機率平均, 這也是最痛苦的決定, 因為理論上也應該是最新的一次是最好的.

4. 更精確一點的預測, 應該就是預測當天的降雨時數 (Rain Hour), 這是較好的, 但這只有一家這樣寫, 所以最後只能是若降雨時數不為 0 時就是 100%, 不然就是 0%.

5. 比較準確的預測方式應該是預測雨量, 但這個雨量是跟下雨的時間有關, 因此像 Accurate Weather 就直接寫小雨雨量, 下雨雨量, 陣雨雨量, 雷雨雨量去區分, 就可以知道下雨的真實狀況.

降雨的機率跟溫度不一樣, 溫度大家都有, 降雨機率並不是每一家都有, 都是有各自的方式, 但若真的要設定 KPI 來作比較, 必須還是要有共同性, 這共同性就是一般化/Normalization, 但在一般化的過程必然會損失很多資料, 理論上是能避免就避免, 不能避免的話也只能趨近, 所以這兩個指標居然差了三個月才寫出來, 並不是程式很難, 而是要找到較好的方法真不容易阿.

而最近中央氣象局的網站有改版, 而改版後又多了不少資訊, 尤其是降雨的狀況的觀測真的是以區為單位了, 只是目前只是做記錄, 並沒有做預測, 因為現在中央氣象局是跑模式後再經過人的判斷修改做最後結果, 這個要到區鄉里鎮是不太可能有這人力的, 但此時若是靠 Data Mining 又可以有不同的觀點了, 改天來做 "你那邊再過 38 分鐘會下雨喔~~~" 這樣的系統.

事實上我們台灣的中央氣象局不是沒有在努力, 最近也做了一個可以更精確預測的劇烈天氣監測系統, 真的可以給予掌聲, 只是這個外包商不知道是民國前那一年成立的, 這系統不只是 Microsoft Windows IE Only, 並且是以 1024*768 的解析度為主, 還必須安裝程式才能跑, 只能說台灣政府離 Open Data 有點距離, 只是這題目一講就會講不完了. (此段為錯誤訊息)

1 則留言:

  1. http://www.yr.no/place/Taiwan/Taipei/Taipei~1665148/hour_by_hour.html

    這個是歐洲的氣象網站

    回覆刪除

熱門文章