2007年12月13日 星期四

從 w2o.tw 來看數字的迷思

昨天(12/11)寫了一篇用 google-analytics 來看一些部落格經營的方向, 而 LVChen 提到會造成這些數字的各種因素, 也說的相當不錯, 也說到一句話: "所謂的從數字來看讀者使用方式,可能得分門別類的去解讀,一言蔽之很容易以偏概全吧。", 這句話相當不錯, 的確說到我懶惰的地方, 因為可能再下去要做更多的因子分析才對, 不該如此草率~~~

但我也常說一句 "Nothing Comes From Nothing" 以及 "事出必有因", 任何事情/數字都有其背後的意義, 所以若是看表相就說這就是事實是相當不對的, 甚至到最後, 也慢慢清楚任何數字都代表一個觀點, 也只能代表部份觀點, 更難以偏蓋全...

當部落格觀察這個網站出來後, 許多人給予支持, 但伴隨著是更多的批評, 甚至在 "Blogblind" 也有人直接說我沒念過 "研究方法", 更沒修過 "統計學" 等等的話, 當然有些人話說到很難聽, 而我也一直在思考, 我用的方法跟書上寫的 "多變量分析" 到底有甚麼不一樣, 而請教不少數學/統計教授, 他們提出一個有趣的觀點: "數字是死的, 唯有在能夠解釋甚麼出來的時候是活的", 最後還是一個 "結果決定論", ...

就像說, 我們無法了解 "銀棒指數" 為甚麼是那樣加的 (計算公式 = 打擊率 * 1000 + 全壘打 * 20 + 打點 * 5 + 壘打數), 把一些不相干的數字加起來, 還加上一些更難去產生出來的權重, 但只要獎給的出去, 能夠有 "鑑別度", 就很夠了, 就像是我常說的, 為甚麼選美是泳裝, 台風, 問答, 才藝等一些分數再加權重算出來的? 這是永遠沒有學理的可能性...

但, 若是要把數字當作是一個多權威的東西又是一個更誇張的事...

就像是我把 w2o 推出去後, 立刻在 funp 就被 tempo 質問: "可是看起來一整個不準呀, 這次統計的權重又是如何呢?", 而我立刻暈倒, 因為在那個網站, 並沒有用任何的新數字, 用的是既有的 Alexa, 及 seednet 做的 Taiwanrank 及既有的 Bloglook 的指數, 那個系統只是一個整合介面, 把這些數字用各個角度去看, 而能夠更方便操作的系統, 所以我也只能回答:

這次是沒有新東西, 只是子集合, BlogLook 是既有的指數..
然後獨立一個是抓 alexa 台灣部份, 一個是抓 seednet 的 Taiwan Rank...
套句我的說法, 在這世界上沒有一種算法是能夠涵蓋全部觀點的...
只能用較多的觀點去 approach 所謂的 "真實"....

所以當我昨天回答完 LVChen 的話時, 立刻做了一個夢, 夢到人應該是把數字作為參考的, 結果變成不是過於信任數字, 不然就是過於不信任數字的狀況, 因此在這種情型下, 我覺得應該要道歉與澄清:
對於那些過於信任數字的人道歉, 畢竟數字只是表相, 無法取代真實, ...
對於那些過於不信任數字的人澄清, 所有數字都有其意義, 不能否認其算出來所代表的面相..
就像是昨天 Taiwanrank 的主導者(?)問我, 對 Alexa 相信多少, 我都回答所有名次也都有 10%~30% 的誤差, 因此, 且越後面越大, 所以就台灣的排行榜而言, 大概只有 2000 名才稍具參考價值, 但到 500 名內準確度就有一定水準, 而全球的部份也是從 10 萬才有意義, 到 2 萬名再來看關係就夠了....

即使像 TaiwanRank 在一定的子集合, 理論上是完全沒有誤差, 但是否能夠代表母集合, 甚至能夠代表所有的行為, 這都是必須經過一個 mapping (映射) 才有意義, 不能直接拿來用, 不然更是以偏蓋全, 而我在之前的文章就說過其特性了, 因此更要去從了解特性去閱讀, 這也可以套用閱讀所有數字的前題..

而昨晚把 w2o 加了一些不同數字與圖型的承現, 也希望這樣可以有更多不同的方式來解讀, 所以 "否定數字背後有可能存在原因是不對的, 更不能用一個數字來去代表所有的真實"..

因此, 在觀看與使用 "部落格觀察" 系列的數字, 以及閱讀我去搜集數字來去做一些推論, 請接受我的道歉與澄清...

沒有留言:

張貼留言

熱門文章