有時, 最簡單的問題往往是最困難的問題, .....
這幾個月我遇到數學系的教授或畢業的朋友, 我就一直問他一個問題:
若我們知道一個時間序列, 知道它是有週期性的, 但除外, 往往會遇到一些變異突然變高與變低, 能找到一個系統去排除這種不是誤差數字, 找到這時間序列的真正走向嗎?
上面這樣說聽起來很玄, 事實上就是若我們知道一個網站的訪客狀況, 而我們知道這對象本來就有依每週的週期變化, 但往往遇到活動就或暴量, 遇到機器問題就或掛掉, 在不知道這些事情的情型下, 卻又能夠排除這個巨量 "誤差", 找到這網站是否真的有在成長或是在衰退?
因此要知道網站有沒有在成長的計算, 不是單純的比較兩個週期的數字變化那麼簡單, 要符合下面四個問題或要求:
1. 要解決週期變化
2. 要解決巨量誤差
3. 要能夠很敏感的知道最近的改變
4. 要能夠很穩定的不要有錯誤警報
當然還有一個更重要的問題: 學習區間要越短, 收斂要很快, .......
這下子就很麻煩的, 甚至在某些觀點, 上面的要求是 "互斥" 的, 當然不是這意思, 而是說要同時滿足是相當困難的.
而我在三個月信誓旦旦的寫出一篇, 網事, 網站的成長與燈號, 裏面有說到我用三個方法解決掉這個問題:
1. 移動平均: 消瀰掉週期產生的變動差異.
2. 過濾離峰值: 也就是 Data Cleaning, 去掉一些事件產生的離峰值.
3. 迴歸分析: 算出最接近的成長斜率.
但當我寫完之後, 我就開始後悔了, 因為這方法, 距離真正要解決最上面的四個問題還有段距離, 因此這三個月我就懸滯在這邊了, 雖然主要因為是過年的關係, 但這個問題我一直放在心上想辦法解決.
的確我也說: 畢竟這個數值是種猜測, 是永遠猜不準的, 即使猜得很準有時意義也沒這麼高, 對經營者而言, 就是希望網站一直成長, 成長越多越好, 但是若是讓他知道, 除了活動與機器掛掉外, 還有甚麼 "基本功" 做對或做錯, 而讓網站成長或衰退, 而從過去看現在, 從現在決定未來該怎麼走, 這件事也是挺重要的, 若能夠算得更準也是好事.
而在兩個星期在跟某教授聊完天後, 我就在想說還有甚麼解法是我沒想到的, 而我那時想的是傅立葉
的計算方式, 來去看週期走向, 但在想, 事實上我們很清楚人的行為就是每週的週期是最強的, 扣掉這個不是月, 就是季與年, 但我們在做經營決策若是用這種週期就太糟糕了, 應該是跟據每天最新的數字去行動才對.
因此我就想說, 做個最基本的微分差來看變化, 當時一直覺得我們看微分的變化通常不是指趨向, 而是趨向的改變, 而我當時想到若是我放棄移動平均, 而是用週期的變化平均, 說不定是有解的, 不只是移動平均是不須要的, 甚至是迴歸更不須要.
我在那時才發現我一直被既有的算式給綁住, 這問題說不定就如同最基本的答案, 只要看最基礎的成長狀況, 只是不一樣的是不能看整個區間, 而是要每天每天去看, 然後再來去算 "平均".
因此最後的演算法是:
1. 算出每天跟上週同期的變化 (消瀰週期性)
2. 過濾離峰值 (這跟之前是一樣)
3. 用半衰期的方式去求平均
而為甚麼用半衰期的方式去求平均, 這是我在前年做 "神貘天氣" 時想很久的方法, 也就是我們知道越近的資料越準確, 而我們如何去用一連串的預測來去求平均, 此時我就覺得幸好當時有做這專案, 不然遇到這問題我還真不知道如何解決, 此時, 這四個問題就真的有解了.
的確, 這個數學題很難, 但事實上是看起來很難罷了, 因為某些茫點讓我們限制了一些思考以及方向,有時用最簡單的方式就可以解決, 因此最後還是用很簡單的數學, 連迴歸都沒用到, 只是做基本的差分, 甚至我原本想要套用一個 "當高次方程式參數比低次很小的時候可以忽略", 但後來想想還是直接做掉好了, 最後終於讓我放下我一直覺得不夠好的大石頭.
在上個星期我在一場 iSearch 的演講說到網事, 裏面有幾張投影片可以給大家分享, 從這邊大概就可以知道網事是在解決甚麼問題了, 只是解決的夠不夠好罷了....
訂閱:
張貼留言 (Atom)
熱門文章
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 ...
-
當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇.... 首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是: ...
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"... 事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
先來看個圖, 這個圖是 Hsiaoi Collection 的 點擊歷史 然後再來看在部觀門的 長瀨茜 的圖... 這兩個圖看起來一模一樣, 這都是在一瞬間突然暴紅的某 CA AV... 不否認的, 事實上 Hsiao Collecition 寫的 這篇 真的寫的不錯, ...
-
雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了. 這篇文章我早在去年 11 月時就想寫了, ...
沒有留言:
張貼留言