2016年1月17日 星期日

得票數與網路聲量真的有關係嗎?

當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇....

首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是:

r = 0.41

這數字誠實說蠻沒有參考價值的, 畢竟這數字說是有正相關沒錯, 但通常定義是:

低度相關性: |r| < 0.4
顯著性相關: 0.4 <= |r| < 0.7
高度相關: |r| >= 0.7

這個 0.41 真的只是剛好過顯著相關的門檻, 但離高度相關真的無法說服別人.

但接下來我們在想這會是因為政黨的關係嗎? 所以就以不同政黨再算一次相關性, 而低於 2 人的就沒辦法算, 所以台聯與新黨就沒辦法計算, 算出來的結果如下:

此時就可以看到很有趣的數字:

1. 民進黨的得票數跟網路聲量幾乎可以判定是沒有相關, 比 0.4 還低的 0.23.
2. 國民黨的相關性也只是過 0.4 的 0.46, 相關性也不算大.
3. 時代力量的相關係數高達 0.81, 這真的代表是網路的政黨嗎?
4. 親民黨甚至是高達 0.99, 但主要是親民黨的落差相當大, 認真經營地方的粉絲團也會經營, 反之亦然.
5. 綠黨社會民主黨聯盟 (綠社盟) 的得票與網路聲量相關性超低.
6. 民國黨的相關係數 0.04 可以說是無關了, 或許因為廣告扭曲了這數字.
7. 信心希望聯盟是最有趣的政黨, 網路聲量越高, 得票數就越低, 相關係數也高達 0.74, 只是是負值, 這會不會可以證明這政黨的主張, 完全無法在網路受到檢驗.

其他政黨我也沒認真去分析, 但大家可以去看原始資料, 歡迎複製回去自己算.

但算完後我倒是很想畫個圖, 只是一畫就發現得票, 聲量高的都很大, 小者都擠在一起, 所以只好取對數再來畫, 此時就發現一個驚人的事實: 事實上這不是線性的關係, 而是指數的關係, 此時再算一次指數的相關性, 得到的結果是:

r = 0.74

就相關性而言已經算是高度相關, 這也代表是, 若你沒有真的透過網路經營到一定程度, 很難回饋成選票, 換個角度來想, 網路聲量雖然能夠跟得票數有相當大的關係, 但通常也是要足夠大才行, 甚至可能也是因為傳統大眾媒體效應相互加乘的效果, 才導致網路聲量與得票數都有出來.


而回頭看對數的相關性, 發現大部份都沒有差距, 唯獨綠黨社會民主黨聯盟這現像最明鮮, 相關係數從 0.19 得不顯著相關升到 0.54 的顯著相關,

1. 網路選戰的效果也是要看政黨, 而時代力量是個網路選戰的指標, 相對民進黨的勝選跟網路沒甚麼相關.
2. 網路聲量的確是可以做為得票數的先驗指標, 只是有時對小黨更是個 "門檻".
3. 若真的是用錢砸出來的, 可能相關性就會很低.
4. 信心希望聯盟以後請不要在網路出現, 請在教會宣傳就好. (1/21 加註: 經人提醒, 應該改成當時信望盟的網路行為與主張反而把選票趕走, 應該要修改溝通策略或政見, 才能透過網路獲得更多選票...)

雖然未來國會的真正重點不是在選舉, 而是透過這樣的系統, 讓我們知道國會在做甚麼, 也是想要透過這樣的系統, 讓國會知道真正的民意, 所以不只期待 2 月 1 日的新國會, 未來國會也會在那時做一個改版, 成國會與人民的橋樑.

這份表的原始資料: https://goo.gl/UhfiVo

註: 得票數來自中選會, 網路聲量來自候選人臉書粉絲團的談論數 20 天平均..

24 則留言:

  1. 只看相關性?怎麼不做一個複回歸,並加上控制變數來看網路聲量對得票率的影響?

    回覆刪除
    回覆
    1. 社會科學很難去做控制變數, 當時我想了一下沒想到, 您有甚麼建議嗎?

      刪除
    2. I have a similar question. But apparently my last message might not be successfully registered. You can easily find the candidate's basic background including gender, education, age and tenure (experiences in public service). You also have the profile of supporters for each party and geographic areas. The former might not be easy to get, but the latter can be found in population data. I think a multiple regression model of the candidate's own background should be the baseline. Then the socioeconomic characteristics can be the upper level. That is, I actually think this should be done as a multi-level model. As how many levels, it could be 2 or three, depending on how to you want to treat party and district.

      The party is an issue.

      Of course, if you can find more than one measure of 網路聲量, you can also model your regressions in the format of structural equation model to control for measurement errors. In that part, it would be a useful methodological paper.

      Just some thoughts. Hopefully you will continue. The topic is on to something. just take one step at a time.

      Daphne Kuo
      University of Wisconsin

      刪除
  2. 請問要如何取得候選人網路聲量(候選人臉書粉絲團的談論數 20 天平均)?

    回覆刪除
    回覆
    1. 嗯, 我們是有自己做 cache, 可以透過下面 API 抓到:
      http://capitol.tw/gene/cache_dump.php?type=talking_sum&people=%E7%8E%8B%E5%AF%B6%E8%90%B1

      上面這數字在 1/16 就不再更新...

      而像
      http://capitol.tw/gene/cache_dump.php?type=talking_about&people=%E7%8E%8B%E5%AF%B6%E8%90%B1
      目前在 2 月 1 日會更新, 但可能之後只會更新當選者...

      刪除
  3. 【網路聲量】的量化定義是什麼?真是沒有營養的一篇偽科學文章。

    回覆刪除
    回覆
    1. 不好意思, 因為前兩篇就寫過了, 這邊就沒寫了, http://gene.speaking.tw/2016/01/blog-post_11.html
      網路聲量用的是臉書的 Talking_About_Count, 而確實定義可以參考 Facebook 的文件, 這邊也就不補贅了....

      (一直寫太快, 不習慣詳細說明是我的缺點, 深感抱歉)

      刪除
  4. 【所以這系統的排序, 一律是以臉書的 "談論數 (Talking About)" 來計算, 因為這會最接近網路的聲量, 即使你是用廣告宣傳的, 但很難是靠不存在的帳號來衝量, 因此聲量越高, 會排在越前面.】http://gene.speaking.tw/2016/01/blog-post_11.html

    談論數可能包含支持言論與反對言論,甚至還有人用FB吵架的,你如何從Talking_About_Count,分析解讀這些意義不同的數字?...怎麼想都覺得你這個【網路聲量】的量化定義不客觀,附上的連結也不清不楚的,既然說不出來就算了。前提如果不清楚,你的推論當然可能是錯的。

    回覆刪除
    回覆
    1. 本來就知道談論數這種次級資料跟 "投票支持" 本來就不一樣, 這次想討論的是可能的關係...

      當然我用的是臉書的數字, 他那邊是否客觀我也不相信, 不然純用網路, 純用臉書, 純用粉絲團, 純用談論數怎可能 "客觀", 就像那篇所說的, 純用網路就是偏見....

      我也不否認我的推論是否正確, 只是我知道在這些數字的前提與偏見下 (Bias), 這個 0.74 這個數字 (投票數與討論數的相關系數) 是 Solid (堅實), 而能不能用就看大家..

      btw, 文章附的原始資料您可以自己算算看, 不然也可以透過 API: http://capitol.tw/gene/people_regress.php

      刪除
    2. 在你的統計中,網路霸凌也可以增加網路聲量。舉例,強國人隨便噴個口水就淹死人了,也不見得他們就更民主,意見更正確,只能代表這個討論中議題是重要而且嚴重缺乏社會共識的重要議題。【這不代表提出這些議題的人就該死。】
      所以你拿來反映支持率或與支持投票的相關係數,當然是邏輯的謬誤,你關於下面所有的推論,全部只是數字遊戲,推論不合理。

      刪除
    3. 我沒有說網路聲量等於網路支持率喔, .... 我也贊成您說的 網路聲量跟網路支持率是兩回事, 不然就不會有信望盟的問題了...

      刪除
  5. 你的信心希望聯盟的推論會變成,以後遇到強國人談到台獨議題,支持台獨的台灣政黨【以後請不要在網路出現, 請在台灣宣傳就好.】

    回覆刪除
    回覆
    1. 有可能喔... 但目前似乎中國還沒開放臉書 , 且中國網民還不能投台灣國會的票, 或者是中國網民沒有直接左右台灣選民的票, ...

      若真的算出 r<-0.7 之類的, 我也會這樣的說...

      刪除
    2. 對阿 當然在台灣宣傳就好 台獨又不是要在中國作。傻了嗎?

      刪除
    3. 你才傻了,台灣建國不用走出去?不用爭取國際支持?走不出去,台灣永遠被當成中國的一省,台獨喊自爽而以。
      以後遇到網路霸凌【弱勢者以後不必在網路出聲, 請自己知道就好】,這就是作者的爛結論。

      刪除
    4. 若是把信望盟在網路的吃虧, 而解讀成 "【弱勢者以後不必在網路出聲, 請自己知道就好】", 也太簡單了, 信望盟在網路聲量與得票率是負相關是文意, 這也是唯一的意義...

      但經過不是靈恩派的人建議, 我將之加上: "經人提醒, 應該改成當時信望盟的網路行為與主張反而把選票趕走, 應該要修改溝通策略或政見, 才能透過網路獲得更多選票..."

      所以真正的問題是否是要在路線, 作為, 甚至理念與想法做修正, 來獲得更多的支持, 還是本來就該把政教分離, 而不該因為選舉改變宗教理念, 或是怪罪那些沒有投票給您們的人是錯的, ...

      若是把所有弱勢者就認為是被打壓, 因為人民沒有認同你的想法, 就認為這是民粹, 這是錯的, 這就反而是更怪的推論....

      我還是蠻肯定的, 信望盟不知是甚麼原因, 造就了 "當網路的聲量越高, 得票數越低", 這或許是真的你們該去想的, 而不須要去否認這現像, 或否認網路.. 只是網路的確是不合適用神密經驗去體驗與感受的場所, 也不合這種佈道式來移殖, 網路也不合這種以恩典感知的方式來去獲得認同是有可能的... 不代表是有甚麼 "弱勢者以後不必在網路出聲, 請自己知道就好" 這種結論..., 因為因子沒那麼單純..

      刪除
  6. 同樣的問題放到大陸與台灣的統獨議題。
    網路聲量=大陸人與台灣人之間的吵鬧不休,大陸人>>台灣人的聲量
    台灣人在外交上爭取國際支持的結果,依照你的結論就會是可笑的結論
    【台灣人以後請不要在網路出現, 請在台灣宣傳就好.】

    回覆刪除
  7. 如果您願意公正的單就數據討論信望盟的數字,會比那種請在教會宣傳就好的情緒酸文來的好不是嗎? 據我所了解,信望盟完全都是刪除反對他們立場的留言,具其他反對FANS留言指出甚至是秒刪,一個刪除的數據請問您是如何得出負面聲量的? 網路聲量除了去年台北市有完全正相關的指數發生外,今年的聲量趨勢根本只是影響選票的小型變因之一,要說聲量,國民黨的廣告幾乎在11月之後天天出現,為何聲量還輸信望盟?罵國民黨的絕對不會比罵信望盟的少。路過發現這篇文章是用您定義的演算法跑出線圖和數據的話,能否請您分析一下信望盟這個現象呢? 因為在選戰尚未熱,同運議題尚未發酵之前,信望盟的聲量就比國民黨還高了.當然如果您真的很討厭信望盟那個黨就當我沒說吧,畢竟逼你算一個你不想算的東西也實在沒意思,謝謝您.

    回覆刪除
    回覆
    1. 我剛看了文章又一遍, 我很確定的我沒寫出任何有關 "正面/負面" 聲量相關概念的事? 還是我有那些文字容易讓您誤解?

      我只是純以 "Facebook Talking About" 來看投票數的關係, 說出信望盟是這兩個數字是負相關, 認為信望盟若是把網路當主戰場是不應該的, 或是相當不利的... (這是對他們好吧?)

      我只是依各個政黨, 把做這兩組數字最簡單的迴歸相關, 並沒有定義出新的演算法.... 您也可以算算看....

      但題外話, 我從來沒觀察過信望盟的聲量比國民黨還高過, 還是你說的是收限在同運議題而已?

      刪除
  8. 光是邏輯推論與定義有問題,數字表格也就不用看,這就是理工系指導教授的作法。

    回覆刪除
  9. 不好意思, 這邊沒有理工系的指導教授存在喔....

    回覆刪除
  10. 1. r 是相關性 大小和顯著無關 顯著與否要看 p
    r 很大的情況 p 也可能很大(不顯著) 表示其實沒有意義 是隨機產生的結果

    2. 相關性(迴歸)本身不代表因果 你以為的"因" 可能是"果"
    也可能第三個未知的變數是因 你比較的兩個變數都是果
    因此 此篇推論太過武斷 沒有意義

    回覆刪除
    回覆
    1. 事實上 561 筆基本上 p 的確不夠.... 但就自由度來看要怎算.. (但的確您說對了, 我這樣說是有問題的)

      我應該沒甚麼提到因果吧, 我剛再看一次我應該沒提到網路聲量可以轉換成選票, 我的目的是想要嘗試找到投票前的 "先驗指標". 不是因果關係...

      刪除
    2. 我瞭解這篇文章想表達的意思,但某些從天堂網路連線下來的神民用的是神邏輯,不是凡人能對話的。附帶一提,進政治學界至今還沒看過一位社會科學研究者用匿名評論的,阿門。

      刪除

熱門文章