IMHO, 黑貘來說: 從次級資料在大數據的應用來看正負面聲量的新算法

2015年6月25日星期四

從次級資料在大數據的應用來看正負面聲量的新算法

感覺又是落落長的標題, 很像是論文, 一點都不是內容農場的下標方式, 但這樣才是真正的主題, 雖然我說不定是研究內容農場最深入的人, 或者是看過最多的人, 但代表真的下去做內容農場一定是另一個故事了...

在上一篇 "從新聞在臉書的按讚, 分享, 評論就可以知道是甚麼類型的文章..." 的文章中, 我們可以得到從一些使用者在臉書的行為去觀察出一些跡徵, 尤其是使用者對文章的感受, 這聽起來很簡單, 但又有幾個問題要克服:

1. 要知道這議題的相關新聞
2. 要知道這些數字的在當天的比例

幸好這個都在新文易數已經完成了, 所以接下來只要做分析就好.

我們可以從這個議題的所有新聞的按讚, 分享, 評論的數字與軌跡, 就可以知道大家對這新聞的看法, 只是這邊有一個較大的問題:

使用者對這新聞的贊同與異議, 指的是對新聞的主張, 而不是議題本身

這個套用在當時 "林克傳說" 的製作經驗時, 當時只能針對 "正負面新聞" 的聲量做比較, 現在更可以對單則新聞的 "正負面聲量" 做比較, 也就是說, 透過這樣的機制, 正面的新聞的負面聲量, 以及負面新聞的正面聲量就可以更精確的做分析.

舉個例子來說, 我們來看 "洪秀柱" 的社群歷史時, 讚同與爭議的是對 "洪秀柱的新聞" 去反應, 不完全是對議題 (人物) 本身去做評價, 但通常新聞大多是持平的報導, 所以有時也可以直接反應出對這議題/人物本身的正負面評價.

這種系統有甚麼好處呢?

1. 即時性相當夠: 當新聞出來, 每一小時民意的變化都很清楚, 這在做危機處理或選戰就相當有用.
2. 非侵入式: 很多問卷調查都是必須設定問題, 且主動去問民眾, 透過這樣民眾對新聞的想法是不會有主客觀的偏差.
3. 樣本性是全使用者: 雖然這個全使用者是指 "臉書的使用者", 不完全是 2300 萬的民眾, 但往往已經是 800~1200 萬的人的想法, 這跟抽樣調查層級是差很多.
4. 時間覆蓋率: 電話或問卷無法常常執行, 但這種方式是 24 小時隨時都在採樣, 就可以對變化與風向很有判讀性.

有時這資料會受到很多因子影響還是會偏差, 但由於這是個連續的時間序列, 且採樣是全面與全樣本, 即使在絕對值的轉換須要質疑外, 比較值與相對值就有很好的參考價值, 所以若是畫出時間軸的比較圖就會變成下面這樣: