2014年12月1日 星期一

在未來從網路大數字就可以知道當選的可能性 (社群資料大數據對大選預測後的經驗)

在這次大選, 很多人包含林克傳說, 都嘗試著用聲量, 覆蓋率, 語意等等來去預測這次的市長選舉, 而彼得塔之鏡在 318 學運時開發了一套系統, 來計算網路社群, 每一個人對事情的支持度, 尤其是在沒有主動表態下也能預測與計算, 而在歷經幾次改版之後, 也獲得不少成果, 就最近回饋的狀況, 是有蠻高的準確率 (這以後會嘗試有個數字).

這次大選事實上也有算出資料, 但算出來是連我都覺得很奇怪, 因為我算出來的結果是:

1. 林佳龍與鄭文燦是有可能選上.
2. 以非國民黨候選人而言, 這六個人最危險的是游錫堃, 但也不是沒機會

我想一任何一個人應該在選前也不相信這數字吧, 我就在這邊做出列表:

從這邊來看, 應該發現馮光遠還是被棄保了, 但這兩個網路支持度與得票率一看就知道是有差距的, 但若有人有心去做個迴歸, 就可以看到這是相關係數 0.901 超過 90% 的相依性, 也就是說, 無法直接從網路支持度算出得票率, 但要從網路支持度的比例與次序, 算出得票率的比例與次序是相當準確的.

只是這有用嗎? 因為這公式即使真的知道, 也要確定出到底那一個是當選的最低標準, 例如這次是 網路支持度超過 55% 以上才能當選, 不到 55% 就會落選, 這數值是會因為下面幾個未知數來改變:
  1. 網路使用者人數 N (800萬~900萬)
  2. 選舉人口 M (1700萬~1800萬)
  3. 網路使用者在這投票區的偏離值 b% (5~10%)
  4. 投票率 v% (60~70%)
  5. 非網路使用者支持度 p% (???)
這邊網路使用人數, 指的是經常性透過社群網路接受資訊的人, 也就是至少要每天上一次臉書的使用者, 雖然說 N, M, b, v 都可以就經驗或有相關數字, 但比較麻煩的是 p 是最難掌握的, 也就是說上面的非網路支持度越接近網路支持度, 很多投票在選前就可以很容易精算, 只是我們知道這是不可能的.

但我們知道, 網路與非網路使用者的投票行為, 從想法, 行為模式, 接受資訊的方法, 思維邏輯的, 並非獨立變數, 也就是不能不考慮上網與非上網人的差異, 這是從 330 vs 54 遊行就可以知道, 只是這之間的差距如何, 就是從網路上完全抓不到的.

而我們若是從上網比例 35% 到 55% 的變化度, 依這網路支持度來去算這個非網路的支持度 p%, 此時會發現一個非常有趣的事實:


這數字是依這城市的上網比例多少, 來算出非上網者的支持率應該為何, 除了台北市外, 都可以直接算兩個候選人, 但網路上表態支持馮光遠的人太多, 雖然棄保是非常肯定存在的, 所以也只能嘗試著算兩種推論.

紅色字是我個人認為較接近的上網人口比例, 從這數字來看會發現一些很有趣的數字:

1. 連勝文, 吳志揚的非網路人口支持率是 63%~64%
2. 胡志強與朱立倫的非網路人口支持率是 53%~55%
3. 黃秀霜與楊秋興的勝敗跟網路無關, 怎樣都是輸的.

從這數字來看, 柯文哲與鄭文燦受到網路的影響較大, 甚至說是靠網路或網路的大勢來幫助是合理的, 而林佳龍勝選是靠自己, 台南跟高雄已經是未戰已分勝負了.

雖然這上面的推論或結論, 很多對選戰有經驗的人是早就知道, 只是不一樣的是從這數字來證明也是相當有趣.

只是這系統能不能在兩年後使用, 最大的問題是即使是社會的投票率與總人數 v, M 不變, 但上網人口比例與偏離值 N, b 一直會變, 而我們嘗試著用 p 代表著不上網或偏藍選民的支持率, 這次的 p 不只是代表網路族群與非網路族群的差異, 也就是說若沒有靠網路世代的掘起, 雙北跟桃園台中, 還是國民黨的天下.

只是這世代不可能改變, 民進黨只是趁勢而為, 所以有人說民進黨也不知道為甚麼會贏, 只知道靠柯文哲旋風, 而柯文哲的世代代表著網路世代的開始, 國民黨接下來要怎接招, 還是維持著不見, 不聽, 不聞, 不問的狀況, 未來的預測會更簡單了, 這系統會更容易接近結果了.

2 則留言:

  1. 您好:

    關於您第一個表格六都的數據,經由 EXCEL 所算出的相關係數只有 0.67。不知您所謂的相關係數是指哪一種算法?

    回覆刪除
    回覆
    1. 台北市是以只有柯與連來計算, 用的是 "非連勝文", 而不是支持柯...

      刪除

熱門文章