2018年3月10日 星期六

資料科學的局限或是不同可能性?(來檢驗王定宇與黃偉哲民調的真實面)

民進黨為了要決定提名,因此辦了民意調查,來決定候選人,而公布高雄市的民調時,嘗試跟 "專頁儀表板" 做了個比較,發現相關性達到 0.99 以上這個令人吃驚的事,但第二天台南的民調跟專頁儀表板的相關性只有 0.03,這數字可以說是完全無關,而 0.99 的相關性雖然是令人吃驚,但 0.03 這個無關結果更令人無法理解。(見粉絲團談論人數與民調的驚奇異同 )

會出現 0.9911 的相關性雖然驚訝,但還是在可接受範圍,但 0.03 這部份是完全出乎意料,而一直在想,到底是甚麼樣的情型造成這完全無關的結果呢?在想會不會是一個是正相關,而另一個是負相關所造成的結果。

因此檢驗這數字的時候,發現有兩組資料是相當有趣的差異,一組是陳亭妃,顏純左,李俊毅,這三個人的粉絲團談論數跟民調的相關性不只是達到 0.99,而是 0.9999,這數字更令人驚訝,但另三個人的數字只剩 -0.4178。



甚至在有人提醒,不是使用葉宜津因為注音事件造成這一兩個星期的大升,而是大家都用 "月中位數" 時,此時即使是扣掉王定宇與黃偉哲這兩個人,相關係數是 0.9782,但一起算的時候自然還是 0.0462 的無關,但在這邊做了個有趣的嘗試,就是把這兩個人的數字對調,又發現一個驚人的事實,這六個人的相關係數居然是 0.9748 的高相關。


會有這樣的結果,不得不讓人猜想,是不是有人把這兩個人數字弄錯,若真的是這樣,該出線的應該是王定宇而不是黃偉哲。此時就不得不想到很多 "陰謀論",說不定是故意調包,或是早就談好的呢?

因為每一個候選人都很特別,最後的民調與談論數都是大家經營出來的結果,但事出必有因,會造成這樣的結果因子很多,像原本所說的:

1. 高雄慢慢變成一個商業都市,網路的普及率與接受度較高。
2. 台南有相當的人口還是在鄉村,使用網路接受訊息的狀況較低。
3. 王定宇是較為全國性的人物,不代表可以直接轉成台南市。

4. 黃偉哲的傳統插旗與廣告還是奏效?
5. 台南市的民調真的有所失真?

這些會造成影響,有些不是,甚至也發現花更多錢廣告的反倒黃偉哲不是最高的,那到底為甚麼會造成這樣的現像呢?

我相信數字會說話,除了王定宇與黃偉哲,高雄市與台南市的候選人的 "轉換率" 都很接近,有多少網路聲量就會有多少民調結果,這轉換率乖離度最大的是葉宜津,而這因子大家應該不意外。

但到底發生甚麼因子,造成王定宇與黃偉哲的 "轉換率" 完全超乎系統的預期?連我都相信 "事出必有因",即使很難會發生,但最簡單的答案往往可能是最正確的答案,也就是真實民調是兩個人對調!

會有這樣的意外也是 我預期不到的,因為以前除了用電話民調外,從來沒有其他系統可以輔助,因此大家只能相信民調,但專頁儀表板提供了一個可能性來檢驗,且在這次發現網路的真實與電話的真實若是沒有甚麼奇怪的 "因子" 大都是接近的,若有差距一定是發生甚麼事?

當然用這兩種不同方法論來互相驗証有很大的問題,一個是網路聲量越高,不代表的是正面的,也可能是負面的,且即使是正面,也不代表能轉換成 "支持度",更不要說這選區的選民在這些支持者的比例多少,以及這選區的網路使用者是多少?

只是透過談論數是相信支持者與關心者多少跟選區相關,必竟要談論 (Making Story) 沒這麼簡單,所以會有如此高的正相關是不意外,這也是用這種方法論 "成功" 的地方?

但這不代表驗證電話民意有問題,因為網路的談論數即使可以轉換成支持度,但這樣直接說台灣的大市長直接給柯文哲做好了,因為他擁有目前透過網路所衡量出來的支持者,只是這系統為甚麼沒包含柯文哲呢?最簡單就是他並沒有參與高雄市或台南市的初選。

因此若不是系統失靈,更不是民意失真或做假,除非一個很大的因素是:"台南市選民跟本認為王定宇不是出來選的"。此時唯一可解釋的就是 "棄保效應",雖然王定宇是受到許多人支持,但當要選擇一個時,棄保效應就是原本支持王定宇的,知道他現在是第一屆的立法委員,還須要更多屆的歷鍊時,這些人的支持就會轉為支持第二個或是 不同考量的結果。

畢竟資料科學利用社群數據,最有趣的地方是他是可以很準確的呈現事實的數字,但必須要有對此問題夠了解的人去組合才會有接近其他方法論的結果。所以若是棄保效應是最後操弄這次民調的最大因子,這兩個人的數字會失真也就不意外了。

所以在這次的研究可以發現幾件事:

1. 用社群聲量來轉換民意的機會很高,且幾乎都可以到 9 成以上的準確度。
2. 甚至可以用這個來做檢驗,像這次是不是真的王定宇與黃偉哲的數字弄錯或失真,也是一個有趣的檢定。
3. 但面臨到一些像 "棄保效應" 的因子時,系統就可能無法得知而造成很大的差距,因為表面的候選人民單跟真實的差很多。
4. 若真的是棄保效應,也大概可以知道像這次陳亭妃想要挖王定宇的支持者,不知為甚麼失敗,因為大部份的人都轉向黃偉哲。

有人說,棄保或配票等等說不定是傷害民主最大的事,當然若真的是這個民調是假的是更糟糕的事,雖然這都不是我們樂見的,但這次的電話民調與網路聲量讓我們看到一件有趣的事,就是在資料科學中,這兩個系統之間互相轉換面臨到的局限,或是可以挖掘到更深層的真實,而這個真實如何或是如何判斷,可能還要更多的事來驗證吧。

2018年3月9日 星期五

粉絲團談論人數與民調的驚奇異同

這幾天,公布了台南與高雄這兩個地方的民進黨內部的電話民調,雖然這跟真的投票沒有絕對關係,但做民調是很花成本的,當然除非有內參保密民調與對外公開民調外,民調還是很有效的 "政治工具"。

談論人數一直是很好的指標,尤其是在選舉的時候,因為選舉最後決勝負是得票數,而選戰不可能就是等著最後結果,也必須努力的讓聲量與認同度提高,所以最常見的方式就是電話民調。

電話民調的問題很多,但網路民調問題也是很多,所以我認為這兩個方法論雖然一致,最後跟的票數有正相關是必然,只是最後這個相關的差距在於 "誤差" 與 "轉換率",而在選舉這種分秒必爭的戰場,本來就不該輕忽任何資訊,想辦法在 "先驗" 的情型下知道戰況做判斷是必要的。

昨天在公布民進黨高雄市民調結果,恭喜 陳其邁 Chen Chi-Mai 出線,當時我看這數字雖然並不意外,也沒想那麼多,而剛有朋友問我今天台南市的狀況,此時我就很想知道高雄市電話民調有沒有辦法透過誤差與轉換率來推估。

因此把民調與這週平均談論數輸入,來算 "線性迴歸" 的 "相關係數",我預期應該是 0.7~0.8 之間,若低於這數字一定是有方法論的問題,但跑出來的結果立刻讓我嚇到吃手手,再三確認這數字沒問題,因為跑出來的結果是:

0.9911

通常相關係數大於 0.7 就可以推估有一定的相關,但 0.99 這數字已經說這兩個是一樣的結果,只有 1% 的誤差,當然這只有四筆資料,可信度表面是資料不足,但這個談論數是基於台灣平常有 1 千 5 百萬的使用者行為的結果,這個解空間不能說太小。


這數字一出來的確讓我嚇到,因為 0.9911 這數字真的是故意用 "做" 的也很難做成這樣,只是換來看台南市又是一個怎樣的狀況呢?結果更令人吃驚!

0.0310

這個數字代表的是不是正相關,也不是負相關,而是趨近於無關,這跟高雄的幾乎是 1 的正相關是天差地遠,為甚麼會有這現像呢?是真的頗令人玩味,但這邊提出幾點可能解釋。

1. 高雄慢慢變成一個商業都市,網路的普及率與接受度較高。
2. 台南有相當的人口還是在鄉村,使用網路接受訊息的狀況較低。
3. 王定宇是較為全國性的人物,不代表可以直接轉成台南市。
4. 黃偉哲的傳統插旗與廣告還是奏效?
5. 台南市的民調真的有所失真?

當然這數字有時背後意義很多,就像是在兩年前的立委選舉,雖然談論人數與票數的相關係數是 0.74 ,但每個政黨都不一樣:

畢竟這種結果常常決定於選民結構,雖然我認為這種計算方式雖然在全國性的選舉比較有意義,而六都市長通常具有相對的可信度,但其他縣市長與縣市議員的轉換度就應該很低,但沒想到一個台南市與高雄市就天差地遠。

接下來選舉越來越近,黨內初選的電話民調到底意義為何?或者是可以即時呈現的網路聲量該又如何看呢?雖然我們知道這些離選票不完全一致,但通常說,有聲量就代表有一定的支持度,除非打的是烏賊戰,此時即使高聲量也會變成負相關,或許這也是另一種警惕。

熱門文章