IMHO, 黑貘來說: 得票數與網路聲量真的有關係嗎?

2016年1月17日星期日

得票數與網路聲量真的有關係嗎?

當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇....

首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是:

r = 0.41

這數字誠實說蠻沒有參考價值的, 畢竟這數字說是有正相關沒錯, 但通常定義是:

低度相關性: |r| < 0.4
顯著性相關: 0.4 <= |r| < 0.7
高度相關: |r| >= 0.7

這個 0.41 真的只是剛好過顯著相關的門檻, 但離高度相關真的無法說服別人.

但接下來我們在想這會是因為政黨的關係嗎? 所以就以不同政黨再算一次相關性, 而低於 2 人的就沒辦法算, 所以台聯與新黨就沒辦法計算, 算出來的結果如下:

此時就可以看到很有趣的數字:

1. 民進黨的得票數跟網路聲量幾乎可以判定是沒有相關, 比 0.4 還低的 0.23.
2. 國民黨的相關性也只是過 0.4 的 0.46, 相關性也不算大.
3. 時代力量的相關係數高達 0.81, 這真的代表是網路的政黨嗎?
4. 親民黨甚至是高達 0.99, 但主要是親民黨的落差相當大, 認真經營地方的粉絲團也會經營, 反之亦然.
5. 綠黨社會民主黨聯盟 (綠社盟) 的得票與網路聲量相關性超低.
6. 民國黨的相關係數 0.04 可以說是無關了, 或許因為廣告扭曲了這數字.
7. 信心希望聯盟是最有趣的政黨, 網路聲量越高, 得票數就越低, 相關係數也高達 0.74, 只是是負值, 這會不會可以證明這政黨的主張, 完全無法在網路受到檢驗.

其他政黨我也沒認真去分析, 但大家可以去看原始資料, 歡迎複製回去自己算.

但算完後我倒是很想畫個圖, 只是一畫就發現得票, 聲量高的都很大, 小者都擠在一起, 所以只好取對數再來畫, 此時就發現一個驚人的事實: 事實上這不是線性的關係, 而是指數的關係, 此時再算一次指數的相關性, 得到的結果是:

r = 0.74

就相關性而言已經算是高度相關, 這也代表是, 若你沒有真的透過網路經營到一定程度, 很難回饋成選票, 換個角度來想, 網路聲量雖然能夠跟得票數有相當大的關係, 但通常也是要足夠大才行, 甚至可能也是因為傳統大眾媒體效應相互加乘的效果, 才導致網路聲量與得票數都有出來.

而回頭看對數的相關性, 發現大部份都沒有差距, 唯獨綠黨社會民主黨聯盟這現像最明鮮, 相關係數從 0.19 得不顯著相關升到 0.54 的顯著相關,

1. 網路選戰的效果也是要看政黨, 而時代力量是個網路選戰的指標, 相對民進黨的勝選跟網路沒甚麼相關.
2. 網路聲量的確是可以做為得票數的先驗指標, 只是有時對小黨更是個 "門檻".
3. 若真的是用錢砸出來的, 可能相關性就會很低.
~~4. 信心希望聯盟以後請不要在網路出現, 請在教會宣傳就好.~~ (1/21 加註: 經人提醒, 應該改成當時信望盟的網路行為與主張反而把選票趕走, 應該要修改溝通策略或政見, 才能透過網路獲得更多選票...)

雖然未來國會的真正重點不是在選舉, 而是透過這樣的系統, 讓我們知道國會在做甚麼, 也是想要透過這樣的系統, 讓國會知道真正的民意, 所以不只期待 2 月 1 日的新國會, 未來國會也會在那時做一個改版, 成國會與人民的橋樑.

這份表的原始資料: https://goo.gl/UhfiVo

註: 得票數來自中選會, 網路聲量來自候選人臉書粉絲團的談論數 20 天平均..

24 則留言:

匿名2016年1月18日上午8:54
只看相關性?怎麼不做一個複回歸，並加上控制變數來看網路聲量對得票率的影響?
回覆刪除
回覆
匿名2016年1月18日上午11:44
請問要如何取得候選人網路聲量(候選人臉書粉絲團的談論數 20 天平均)?
回覆刪除
回覆
ChenXanzai2016年1月18日下午4:09
【網路聲量】的量化定義是什麼？真是沒有營養的一篇偽科學文章。
回覆刪除
回覆
ChenXanzai2016年1月18日晚上10:19
【所以這系統的排序, 一律是以臉書的 "談論數 (Talking About)" 來計算, 因為這會最接近網路的聲量, 即使你是用廣告宣傳的, 但很難是靠不存在的帳號來衝量, 因此聲量越高, 會排在越前面.】http://gene.speaking.tw/2016/01/blog-post_11.html

談論數可能包含支持言論與反對言論，甚至還有人用FB吵架的，你如何從Talking_About_Count,分析解讀這些意義不同的數字？...怎麼想都覺得你這個【網路聲量】的量化定義不客觀，附上的連結也不清不楚的，既然說不出來就算了。前提如果不清楚，你的推論當然可能是錯的。
回覆刪除
回覆
匿名2016年1月19日下午1:03
你的信心希望聯盟的推論會變成，以後遇到強國人談到台獨議題，支持台獨的台灣政黨【以後請不要在網路出現, 請在台灣宣傳就好.】
回覆刪除
回覆
ChenXanzai2016年1月20日下午6:13
同樣的問題放到大陸與台灣的統獨議題。
網路聲量=大陸人與台灣人之間的吵鬧不休，大陸人>>台灣人的聲量
台灣人在外交上爭取國際支持的結果，依照你的結論就會是可笑的結論
【台灣人以後請不要在網路出現, 請在台灣宣傳就好.】
回覆刪除
回覆
匿名2016年1月21日凌晨2:18
如果您願意公正的單就數據討論信望盟的數字，會比那種請在教會宣傳就好的情緒酸文來的好不是嗎? 據我所了解,信望盟完全都是刪除反對他們立場的留言,具其他反對FANS留言指出甚至是秒刪,一個刪除的數據請問您是如何得出負面聲量的? 網路聲量除了去年台北市有完全正相關的指數發生外，今年的聲量趨勢根本只是影響選票的小型變因之一，要說聲量，國民黨的廣告幾乎在11月之後天天出現，為何聲量還輸信望盟?罵國民黨的絕對不會比罵信望盟的少。路過發現這篇文章是用您定義的演算法跑出線圖和數據的話，能否請您分析一下信望盟這個現象呢? 因為在選戰尚未熱，同運議題尚未發酵之前,信望盟的聲量就比國民黨還高了.當然如果您真的很討厭信望盟那個黨就當我沒說吧,畢竟逼你算一個你不想算的東西也實在沒意思,謝謝您.
回覆刪除
回覆
匿名2016年1月21日下午6:27
光是邏輯推論與定義有問題，數字表格也就不用看，這就是理工系指導教授的作法。
回覆刪除
回覆
黑貘/Black Tapir2016年1月21日晚上8:36
不好意思, 這邊沒有理工系的指導教授存在喔....
回覆刪除
回覆
匿名2016年1月26日上午11:34
1. r 是相關性大小和顯著無關顯著與否要看 p
r 很大的情況 p 也可能很大(不顯著) 表示其實沒有意義是隨機產生的結果

2. 相關性(迴歸)本身不代表因果你以為的"因" 可能是"果"
也可能第三個未知的變數是因你比較的兩個變數都是果
因此此篇推論太過武斷沒有意義
回覆刪除
回覆

新增留言

訂閱：張貼留言 (Atom)

2016年1月17日 星期日

得票數與網路聲量真的有關係嗎?

24 則留言:

熱門文章

2016年1月17日星期日