有時, 最簡單的問題往往是最困難的問題, .....
這幾個月我遇到數學系的教授或畢業的朋友, 我就一直問他一個問題:
若我們知道一個時間序列, 知道它是有週期性的, 但除外, 往往會遇到一些變異突然變高與變低, 能找到一個系統去排除這種不是誤差數字, 找到這時間序列的真正走向嗎?
上面這樣說聽起來很玄, 事實上就是若我們知道一個網站的訪客狀況, 而我們知道這對象本來就有依每週的週期變化, 但往往遇到活動就或暴量, 遇到機器問題就或掛掉, 在不知道這些事情的情型下, 卻又能夠排除這個巨量 "誤差", 找到這網站是否真的有在成長或是在衰退?
因此要知道網站有沒有在成長的計算, 不是單純的比較兩個週期的數字變化那麼簡單, 要符合下面四個問題或要求:
1. 要解決週期變化
2. 要解決巨量誤差
3. 要能夠很敏感的知道最近的改變
4. 要能夠很穩定的不要有錯誤警報
當然還有一個更重要的問題: 學習區間要越短, 收斂要很快, .......
這下子就很麻煩的, 甚至在某些觀點, 上面的要求是 "互斥" 的, 當然不是這意思, 而是說要同時滿足是相當困難的.
而我在三個月信誓旦旦的寫出一篇, 網事, 網站的成長與燈號, 裏面有說到我用三個方法解決掉這個問題:
1. 移動平均: 消瀰掉週期產生的變動差異.
2. 過濾離峰值: 也就是 Data Cleaning, 去掉一些事件產生的離峰值.
3. 迴歸分析: 算出最接近的成長斜率.
但當我寫完之後, 我就開始後悔了, 因為這方法, 距離真正要解決最上面的四個問題還有段距離, 因此這三個月我就懸滯在這邊了, 雖然主要因為是過年的關係, 但這個問題我一直放在心上想辦法解決.
的確我也說: 畢竟這個數值是種猜測, 是永遠猜不準的, 即使猜得很準有時意義也沒這麼高, 對經營者而言, 就是希望網站一直成長, 成長越多越好, 但是若是讓他知道, 除了活動與機器掛掉外, 還有甚麼 "基本功" 做對或做錯, 而讓網站成長或衰退, 而從過去看現在, 從現在決定未來該怎麼走, 這件事也是挺重要的, 若能夠算得更準也是好事.
而在兩個星期在跟某教授聊完天後, 我就在想說還有甚麼解法是我沒想到的, 而我那時想的是傅立葉
的計算方式, 來去看週期走向, 但在想, 事實上我們很清楚人的行為就是每週的週期是最強的, 扣掉這個不是月, 就是季與年, 但我們在做經營決策若是用這種週期就太糟糕了, 應該是跟據每天最新的數字去行動才對.
因此我就想說, 做個最基本的微分差來看變化, 當時一直覺得我們看微分的變化通常不是指趨向, 而是趨向的改變, 而我當時想到若是我放棄移動平均, 而是用週期的變化平均, 說不定是有解的, 不只是移動平均是不須要的, 甚至是迴歸更不須要.
我在那時才發現我一直被既有的算式給綁住, 這問題說不定就如同最基本的答案, 只要看最基礎的成長狀況, 只是不一樣的是不能看整個區間, 而是要每天每天去看, 然後再來去算 "平均".
因此最後的演算法是:
1. 算出每天跟上週同期的變化 (消瀰週期性)
2. 過濾離峰值 (這跟之前是一樣)
3. 用半衰期的方式去求平均
而為甚麼用半衰期的方式去求平均, 這是我在前年做 "神貘天氣" 時想很久的方法, 也就是我們知道越近的資料越準確, 而我們如何去用一連串的預測來去求平均, 此時我就覺得幸好當時有做這專案, 不然遇到這問題我還真不知道如何解決, 此時, 這四個問題就真的有解了.
的確, 這個數學題很難, 但事實上是看起來很難罷了, 因為某些茫點讓我們限制了一些思考以及方向,有時用最簡單的方式就可以解決, 因此最後還是用很簡單的數學, 連迴歸都沒用到, 只是做基本的差分, 甚至我原本想要套用一個 "當高次方程式參數比低次很小的時候可以忽略", 但後來想想還是直接做掉好了, 最後終於讓我放下我一直覺得不夠好的大石頭.
在上個星期我在一場 iSearch 的演講說到網事, 裏面有幾張投影片可以給大家分享, 從這邊大概就可以知道網事是在解決甚麼問題了, 只是解決的夠不夠好罷了....
訂閱:
張貼留言 (Atom)
熱門文章
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"... 事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
剛剛坐到一部相當恐怖的公車, 但不恐怖不要打我... 因為是下雨天, 所以是坐公車從淡水捷運站來回通車的日子, 很幸運的一下捷運還沒刷卡就看到紅 26 從我面前經過, 即使我身上帶著 5 公斤重的 "老四川" 鍋底, 我想只要快步走就可以趕上, 跑是不可能...
-
我們先來看結果好了.. 日期 陳水扁 馬英九 文章 2008-09-01 2.1 25.8 殘奧授旗 馬英九:提昇殘障選手地位 2008-08-31 6.5 7.6 馬英九路跑 沿途仍見「嗆馬」標語 2008-08-30 8.7 11.9 暗諷扁? ...
-
雖然我們知道, 正義是相當重要的一件事, 但是正義是有極限的, 甚至是相對的, 所以若是把正義無限的延伸的話, 那一天真的成立了世界政府, 將會有多少生命是以正義之名去抹煞的. 而這個該給予正義有一的的極限或限制就是 "不能用任何理由剝奪生命", 這應該是普世...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
的確在 8 月 8 日馬英九還沒有放出 "父親節" 未來週記談話的前兩天, 我就回台南了, 那時看著氣象預報, 在想著說這次颱風應該又是屬於南部無風無雨, 但北部大風大雨的狀況吧, 就趁 8 月 6 日晚上連夜回台南避颱風, 所以帶著大兒子回南部 "...

沒有留言:
張貼留言