接近 10 年前的時候, 當時用搜尋引擎的網頁變化來判斷當時的 10 大政治人物, 跑出了這樣的一個表:
10 年後的今天, 利用新文易數及對應的臉書資料, 也跑了一個 10 大政治人物排行榜:
從排行榜來看, 剛好都在兩個排行上面的有馬英九, 宋楚瑜與陳水扁, 其他七個人都換掉了, 但我們今天討論的不是這些人, 而是系統的變化.
這 10 年的變化相當的大, 10 年前最主要的資訊來源是下面這幾項:
1. 網站的網頁數量
2. 部落格文章
3. 新興的網路新聞媒體
4. 搜尋量
5. 社群書籤
而在 10 年後的現在的來看, 最主要的變化是:
1. 主流媒體都上網了, 變成網路新聞的最大宗
2. 部落格文章大量減少 (很多平台都倒了)
3. 社群網站的使用者互動變成社群訊號
4. 搜尋量變得更難拿了
5. 社群書籤都沒人用了, 倒是社群媒體的文章變多了
當然最大的問題是有人會問, 這資料到底有沒有意義?
網路有一個有趣的現像: "nothing comes from nothing, nothing ever could", 也就是事出有因, 而通常這個因是因為相當大, 相當複雜, 所以有時找原因是困難的, 因此驗證的方式也是相對的困難....
尤其若是政治人物的聲量, 最容易被提及的是選舉, 尤其是預測的部份, 更因為時代的變遷有所變化, 在 2010 年之前網路的預策通常大部份的是用搜尋量來預測, 事實上有很大的落差, 還不如用傳統民調較準確, 而在 4 年前的選舉, 透過社群網站的訊息傳播來預測, 此時準確度就有很明鮮的提升, 甚至到 2014 年用社群網路的人際關係來預測, 投票數的準確率已經接近 7 成了, 而在今年的立委選舉, 甚至接近到 8 成的準確率.
畢竟人的思考是相當難捉模的, 有時顯而易見, 有時是很難掌握, 有時資料很明鮮一看只是早就已經知道的事, 但有時跑出來的結果又是令人意外, 這次的美國總統選舉更是一個相當有趣的實驗場所, 甚至更有趣的是用的工具方法說不定算出來的不是大家預期的, 但出來的結果反倒是準確的, 因為在這種大量選民的情型下, "因果" 已經很難用傳統選戰解讀.
雖然用 Voting Group 的選民結構來看, 是可以去左右政治, 但真正的政治是隨時隨地在發生, 不能只是在投票時才會存在, 才去感知, 才去監督, 所以在投票後, 投票時所用的這些工具, 也應該透過這些機制讓我們對那些政策, 或政治人物有實值的影響力與話語權, 而不是全部都從無法驗證的民調來得知民眾的想法.
像這次新文易數用的方法雖然說是很簡單, 就是從每天超過一萬篇文章, 去知道全台灣使用臉書民眾, 透過讚享評去知道大家每一個動作背後意義的改變, 進一步的計算出來, 這解空間幾乎是每天 16 億的可能性去組合出來的結果, 所以就速度與精確度是很夠的, 只是最麻煩的是只能知道結果, 無法知道因子, 除非再去做一次因子檢定, 只是這又是另一種工了.
只是一定有人問這如何得知或檢定呢? 畢竟這數量級這麼大, 又很難計算, 即使是公開每一個人都是有辦法去算, 但相對的基礎建設及處理能力是一個很高的門檻, 事實上包含我自己, 我也只能用一個方法:
這種資料並不是用來找出本來就知道的事, 因為人是相當厲害的, 就像是你看這些資料, 應該會覺得八九不離十, 但真正的重點是在那一兩成你看不出來的.
若這資料算出來跟大家預期的差很多, 通常不是計算錯誤, 不然就是方法論錯誤, 就像是我之前用林克傳說來看 "風向球" 時得到一個有趣的結論:
雖然網路聲量與正負評因為事件的發生而發生改變, 而任何有敏感度的人都會知道上升或下降的方向, 而跑出來得資料也是一樣的上升與下降, 只是到底是些微上升, 或是極劇下降, 人的判斷與系統資料有時會有兩三成的不一樣, 這兩三成就是讓我們檢驗我們不夠或未知的地方.
工具是死的, 人是活的, 透過網路工具讓我們看到沒看到的地方, 而不是讓工具去限制我們的思考, 這才是最重要的, 但發生不一樣的時候, 不是單純的拒絕, 而是要更進一步的思考, 就像是這次美國選舉那樣, 那些工具即使算出來答案是對的, 但真正的智慧是在人的解讀, 以及做為自己行為下一步的參考, 這才是資料的價值.
訂閱:
張貼留言 (Atom)
熱門文章
-
在開始寫這篇之前, 先弄個小 box 讓大家回顧之前有關 網站完全評點 (原SEO鑑價系統) 的文章: 對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I) 內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II) 你找的 SEO 公司真的有成效嗎? (SEO 鑑價...
-
剛不小心去按 plurk, 發現跑出一段 error code: Traceback (most recent call last): File "/home/plurk/plurk/production/releases/20090104210908/ext/part...
-
當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇.... 首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是: ...
-
會取名網事是有原因的, 不單純的只是 "網站的事情", 也是因為我習慣用雙關語與諧音來命名的關係, 因此這個 "往事" 也代表來看過去, 從看過去的事, 來做現在的事, 因而決定未來. 因此會有一個很有趣的功能, 也就是我很喜歡的數...
-
依 IMDB 超過 1 萬人以上評分的順序 降世神通 1. 9.3 Avatar 降世神通 2. 9.2 Ricky and Moorty 3. 9.1 鋼之鍊金術師 Brotherhood 4. 9.0 進擊的巨人 5. 9.0 獵人 6. 9.0 死亡筆記本 11. 8.8 ...
-
民進黨為了要決定提名,因此辦了民意調查,來決定候選人,而公布高雄市的民調時,嘗試跟 "專頁儀表板" 做了個比較,發現相關性達到 0.99 以上這個令人吃驚的事,但第二天台南的民調跟專頁儀表板的相關性只有 0.03,這數字可以說是完全無關,而 0.99 的相關性...
-
目前已知道 Formula/Equation 是: 1. Unemployment: ind*3+com-pop (分母是Pop) 2. Transportation: tra*5+100-pop (分母是Pop) 3. Criminality: sec*4+300-pop (分...
-
我們都知道網路詐騙是一個很嚴重的問題, 不下於假新聞, 雖然這些事都不是在網路上獨特的社會現像, 因為在現實社會這些欺騙的事層出不窮, 但透過網路的高效率散播, 有時比現實社會來得嚴重. 在臉書投廣告, 大部份都是須要透過粉絲團來操作, 若是我們能夠 "定位...
-
很多人以為實況投票只是一個浪費頻寬的工具, 雖然這是真的, 畢竟若只是一張圖, 上面就是幾個數字跳來跳去, 我真的不知道這是為了做甚麼? 況且這些投票, 本來就存在粉絲團本來的結構性偏差, 動員力量的問題, 甚至還有人把 "讚" 的選項做進去, 這不是刻意誤導...
-
專頁儀表板除了作為社群編輯的工具外,更想做的是想要成為 "透過社群來了解社會" 的儀表板,因此對於 "屬性" 上做了各個面相的定義,除了常見的分類外,更重要的是依立場,議題來去 "標籤"。 因此會有 "...


沒有留言:
張貼留言