2011年3月9日 星期三

資料探勘的假借法? (Data Mining)

前幾天有一個很重要的事, 就是 M$ 自己做了一個 IE6 Countdoown 的網站, 希望在 2014 年能夠讓 IE6 從地球上消失, 但我這篇不是在寫 IE6, 雖然我是網站開發者, 只是我只處理到資料庫端而已, 所以我並沒有那麼痛恨 IE6, 所以當看完這網站我並沒有很大的想法.

但仔細看了一下這網站的數字, 這網站的資料是取自網路界鼎鼎有名的 Net Applications .com, 很多網路分析資料的數字都是取自於這間公司, 所以也沒甚麼好意外的, 而在一個噗浪的討論串中, 有人說了一句話: 亞洲好像是最慘的, 仔細一看, 亞洲說不定占了整個 IE6 的三分之二, 當然其中有一半要歸功於中國大陸.

討論到這邊, 台灣的狀況也沒好到那邊, 最後大家七嘴八舌的說台灣真正的問題不在民間, 而是在公家機關, 此時就講到這些政府單位的固步自封, 食古不化, 甚至到貪污腐敗的程度, 所以認真看了一下:

中國 34.5%
南韓 24.8%
印度 12.3%
台灣 10.7%
日本 10.3%
越南 10.0%
香港 7.6%
若不說這是 IE6 的占有率, 而是說公家機關的 "官僚度", 甚至說是 "資訊暢通率" 說不定有許多人會相信與認同.

事實上在任何數字背後都有其意義的, 這也是我常說的 "Nothing Comes From Nothing", 事出必有因, 很多事情無法確切的知道, 或者是量化的得到, 若是用另一個管道取得不同的資訊, 說不定真的可以參照.

而在這份數字中, 表現最好的是挪威與芬蘭都不到 1%, 這更似乎可以證明些甚麼的感覺, 但 IE6 的占有率應該是用兩個因子來造成的.

1. 資訊的利用率
2. 資訊的進化率

也就是說, 若都沒在用網路, 當然也不會有 IE6 的問題, 但若只知道使用網路, 而不知道去進化, 去更新, 這才是最糟糕的事, 我們很清楚的知道台灣的公家機關是如此, 但事實上也是人民, 廠商放任如此的結果, 也可以說這是社會的氛圍也不為過, 畢竟政府是我們選的, 我們建構的, 而從這邊倒是真的可以看清一些事情.

說到這邊, 大家應該會懷疑我的標題應該是 "從 IE6 來看台灣政治的困境" 這樣才對, 這也沒錯, 事實上我最近在玩一些數字的時候, 常常會面臨到一些問題, 雖然我們期望在資料探勘可以用較為 "平面" 的角度去抓取資料, 但事實上任何動作與行為都有出發點, 要能夠去避免偏見是不太可行, 只是這些也不是問題, 真正的問題是: "抓不到", 以及 "無法定義"...

尤其有些數字是人去填的, 就像是這次馬政府認定政見完成率有 88% 那樣, 說這是公正客觀的指標還不如說這是個話術比較實際, 因此有時候我們該去取樣的數字應該是更沒有立場的, 甚至是更大量的, 更即時的, 尤其若是用 "系統性", "自動化", "架構性" 的去抓這些數字, 能夠呈現的資料往往會超乎我們的想像.

例如我曾用噗浪去搜集過 "失眠", "感冒", "翻桌", "好熱", "下雨" 等等情緒性或較直接的現像的字詞計算來看社會, 有些是有點廢話, 當溫度交替時就會較多人感冒, 而我倒是想說若進一步的去搜集 "找工作", "失業", 說不定也可以呈現出社會的不同面與角度.

當然數字只是非常非常的表面, 不能用數字的表相來去看, 更應該像是統計去探索裏面的因子去做分析, 但這個倒不見的是 Data Mining 可以做的事, 畢竟有時我覺得資料探勘跟統計有點像 天文 vs 物理, 一個是你只能從觀察去找到答案, 另一個是可以去做實驗與驗証, 有時從這角度來看社會, 還覺得這個社會雖然說是個母體 (Matrix), 但說要去架構還真的不可能阿, 這也是人類有趣的地方.

下面是原噗的內容.

3 則留言:

  1. 用複回歸分析法去分析
    IE6 的占有率,公家機關的官僚度, 資訊暢通率 的相關性,
    或許可以得出很高的正相關??

    回覆刪除
  2. 『這個圖給我們一個啟示是: 有時候無法得知 A 的狀況, 但我們可以用可以探知的 B 的狀況評測之...』-> 我喜歡

    回覆刪除
  3. Data Mining or Data Dredging ?

    回覆刪除

熱門文章