有時, 最簡單的問題往往是最困難的問題, .....
這幾個月我遇到數學系的教授或畢業的朋友, 我就一直問他一個問題:
若我們知道一個時間序列, 知道它是有週期性的, 但除外, 往往會遇到一些變異突然變高與變低, 能找到一個系統去排除這種不是誤差數字, 找到這時間序列的真正走向嗎?
上面這樣說聽起來很玄, 事實上就是若我們知道一個網站的訪客狀況, 而我們知道這對象本來就有依每週的週期變化, 但往往遇到活動就或暴量, 遇到機器問題就或掛掉, 在不知道這些事情的情型下, 卻又能夠排除這個巨量 "誤差", 找到這網站是否真的有在成長或是在衰退?
因此要知道網站有沒有在成長的計算, 不是單純的比較兩個週期的數字變化那麼簡單, 要符合下面四個問題或要求:
1. 要解決週期變化
2. 要解決巨量誤差
3. 要能夠很敏感的知道最近的改變
4. 要能夠很穩定的不要有錯誤警報
當然還有一個更重要的問題: 學習區間要越短, 收斂要很快, .......
這下子就很麻煩的, 甚至在某些觀點, 上面的要求是 "互斥" 的, 當然不是這意思, 而是說要同時滿足是相當困難的.
而我在三個月信誓旦旦的寫出一篇, 網事, 網站的成長與燈號, 裏面有說到我用三個方法解決掉這個問題:
1. 移動平均: 消瀰掉週期產生的變動差異.
2. 過濾離峰值: 也就是 Data Cleaning, 去掉一些事件產生的離峰值.
3. 迴歸分析: 算出最接近的成長斜率.
但當我寫完之後, 我就開始後悔了, 因為這方法, 距離真正要解決最上面的四個問題還有段距離, 因此這三個月我就懸滯在這邊了, 雖然主要因為是過年的關係, 但這個問題我一直放在心上想辦法解決.
的確我也說: 畢竟這個數值是種猜測, 是永遠猜不準的, 即使猜得很準有時意義也沒這麼高, 對經營者而言, 就是希望網站一直成長, 成長越多越好, 但是若是讓他知道, 除了活動與機器掛掉外, 還有甚麼 "基本功" 做對或做錯, 而讓網站成長或衰退, 而從過去看現在, 從現在決定未來該怎麼走, 這件事也是挺重要的, 若能夠算得更準也是好事.
而在兩個星期在跟某教授聊完天後, 我就在想說還有甚麼解法是我沒想到的, 而我那時想的是傅立葉
的計算方式, 來去看週期走向, 但在想, 事實上我們很清楚人的行為就是每週的週期是最強的, 扣掉這個不是月, 就是季與年, 但我們在做經營決策若是用這種週期就太糟糕了, 應該是跟據每天最新的數字去行動才對.
因此我就想說, 做個最基本的微分差來看變化, 當時一直覺得我們看微分的變化通常不是指趨向, 而是趨向的改變, 而我當時想到若是我放棄移動平均, 而是用週期的變化平均, 說不定是有解的, 不只是移動平均是不須要的, 甚至是迴歸更不須要.
我在那時才發現我一直被既有的算式給綁住, 這問題說不定就如同最基本的答案, 只要看最基礎的成長狀況, 只是不一樣的是不能看整個區間, 而是要每天每天去看, 然後再來去算 "平均".
因此最後的演算法是:
1. 算出每天跟上週同期的變化 (消瀰週期性)
2. 過濾離峰值 (這跟之前是一樣)
3. 用半衰期的方式去求平均
而為甚麼用半衰期的方式去求平均, 這是我在前年做 "神貘天氣" 時想很久的方法, 也就是我們知道越近的資料越準確, 而我們如何去用一連串的預測來去求平均, 此時我就覺得幸好當時有做這專案, 不然遇到這問題我還真不知道如何解決, 此時, 這四個問題就真的有解了.
的確, 這個數學題很難, 但事實上是看起來很難罷了, 因為某些茫點讓我們限制了一些思考以及方向,有時用最簡單的方式就可以解決, 因此最後還是用很簡單的數學, 連迴歸都沒用到, 只是做基本的差分, 甚至我原本想要套用一個 "當高次方程式參數比低次很小的時候可以忽略", 但後來想想還是直接做掉好了, 最後終於讓我放下我一直覺得不夠好的大石頭.
在上個星期我在一場 iSearch 的演講說到網事, 裏面有幾張投影片可以給大家分享, 從這邊大概就可以知道網事是在解決甚麼問題了, 只是解決的夠不夠好罷了....
訂閱:
張貼留言 (Atom)
熱門文章
-
在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了. 當然 CTR 不是只有注重 SEO 的人才須要注意...
-
說真的, 這次的低潮還算挺久的, 在某方面而言, 在做完 "宅度計" 之後, 就停下來了, 就最後的日期大概是 5/29 號前後吧, ... 這段時間唯一做的大概是 Google Trends 的數字計算, 那時是 6 月 23 日吧, 在之前的 6 月 5 ...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
在過了短暫的墾丁之旅後, 該收心認真工作, 但似乎也只有一個星期... 這段期間因為 Engadget 的大總編 借我 3G Card, 所以在找吃的或住的是有派上用場, 也幾乎是隨時都可以上網, 但卻沒有停下腳步寫任何的 Blog... 但這次很意外的像這樣的 3G 在墾丁所...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
-
在星期六發生件慘劇, 就是我的 MacBook Pro 的電源供應器掛了, 所以許多事情就卡在那邊, 尤其是星期六晚上, 有一大堆例行作業要做... 此時最慘的大概是部落格觀察的 Google 更新的問題, 理論上這應該在每個星期六晚上在做 rotate 時應該會發現, 但我在沒...
沒有留言:
張貼留言