2015年6月25日 星期四

從次級資料在大數據的應用來看正負面聲量的新算法

感覺又是落落長的標題, 很像是論文, 一點都不是內容農場的下標方式, 但這樣才是真正的主題, 雖然我說不定是研究內容農場最深入的人, 或者是看過最多的人, 但代表真的下去做內容農場一定是另一個故事了...

在上一篇 "從新聞在臉書的按讚, 分享, 評論就可以知道是甚麼類型的文章..." 的文章中, 我們可以得到從一些使用者在臉書的行為去觀察出一些跡徵, 尤其是使用者對文章的感受, 這聽起來很簡單, 但又有幾個問題要克服:

1. 要知道這議題的相關新聞
2. 要知道這些數字的在當天的比例

幸好這個都在新文易數已經完成了, 所以接下來只要做分析就好.

我們可以從這個議題的所有新聞的按讚, 分享, 評論的數字與軌跡, 就可以知道大家對這新聞的看法, 只是這邊有一個較大的問題:

使用者對這新聞的贊同與異議, 指的是對新聞的主張, 而不是議題本身

這個套用在當時 "林克傳說" 的製作經驗時, 當時只能針對 "正負面新聞" 的聲量做比較, 現在更可以對單則新聞的 "正負面聲量" 做比較, 也就是說, 透過這樣的機制, 正面的新聞的負面聲量, 以及負面新聞的正面聲量就可以更精確的做分析.



舉個例子來說, 我們來看 "洪秀柱" 的社群歷史時, 讚同與爭議的是對 "洪秀柱的新聞" 去反應, 不完全是對議題 (人物) 本身去做評價, 但通常新聞大多是持平的報導, 所以有時也可以直接反應出對這議題/人物本身的正負面評價.

這種系統有甚麼好處呢?

1. 即時性相當夠: 當新聞出來, 每一小時民意的變化都很清楚, 這在做危機處理或選戰就相當有用.
2. 非侵入式: 很多問卷調查都是必須設定問題, 且主動去問民眾, 透過這樣民眾對新聞的想法是不會有主客觀的偏差.
3. 樣本性是全使用者: 雖然這個全使用者是指 "臉書的使用者", 不完全是 2300 萬的民眾, 但往往已經是 800~1200 萬的人的想法, 這跟抽樣調查層級是差很多.
4. 時間覆蓋率: 電話或問卷無法常常執行, 但這種方式是 24 小時隨時都在採樣, 就可以對變化與風向很有判讀性.

有時這資料會受到很多因子影響還是會偏差, 但由於這是個連續的時間序列, 且採樣是全面與全樣本, 即使在絕對值的轉換須要質疑外, 比較值與相對值就有很好的參考價值, 所以若是畫出時間軸的比較圖就會變成下面這樣:


像這樣的圖表就可以輕易的分析出目前這些人在民眾心中的想法, 只是這個較難轉化成絕對的民眾比例, 但若是要了解網路族群的想法倒是輕而易舉.

這系統目前還在研究介面, 等到做出來後會讓大家使用, 請期待.., 請大家可以給我知道你的想法與須求, 但不要問我那時完成, 哈.....

2015年6月8日 星期一

從新聞在臉書的按讚, 分享, 評論就可以知道是甚麼類型的文章...

這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定.

而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就可以知道大家對這個新聞的認知與想法, 來回推這則新聞的方向.

經過這段時間的觀察, 大概已經可以得知一些分析方式, 從讚享評的比例, 可比劃分出 2^3 共八種象限, 而三個數值都很低代表沒人關心, 或三個數值都很高代表相當熱門外, 另外六個象限大概可以劃分成這樣的分析:
按讚數較高: 通常是娛樂新聞居多, 較為有趣的事, 但不少是業配文, 如: "恭喜粉紅豬!鍾欣凌42歲又有了, 親口羞認:3個月了", 或 "12年招牌長髮掰掰!張鈞甯剪俏麗新短髮".  
分享數較高: 跟自身與生活有相關, 以民生消費健康類居多, 如: "開車門沒禮讓來車 交通部擬開罰", 或 "你不年輕了!35歲後的職場路,沒有「打掉重練」的選項".   
評論數較高: 非常具有衝突的議題, 有很強的正反兩極化, 如: "槍決6死囚, 苗博雅:法務部什麼都不會,只會執行死刑", 或 "提升軍人地位, 藍委提案軍人節全國放假".  
按讚數較低: 震驚的事情, 大部份都是很糟糕的政策, 如: "立院三讀, 大專畢業生可至企業服替代役", 或 "中華民國萬萬稅, 「寵物稅」蠢蠢欲動".  
分享數較低: 悲傷的事情, 尤其是社會案件居多, 很多人不會想散播, 如: "好難過!劉小妹遇害時, 已驚嚇到胃痙攣", 或 "竹東河濱橋下, 驚見國二少女裸屍".  
評論數較低: 好文, 但較不具社會影響力, 且很有可能是內容農場類的文章, 如: "老師在聯絡簿上的插畫, 竟讓網友羨慕學生", 或 "陪你到最後!新婚老婆癌逝 老公思念文章讓網友淚崩"
其中這三個數值不是直接拿來做比較, 而是要經過轉換, 也就是這三個數值除上 40, 2, 3 後來做比較, 若是有一個數值超過 2 或低於 0.5 就代表較低或較高, 舉個例來說, 讚享評若都是 6000, 6000, 6000 的話, 除調 40, 2, 3 的數值後是 150, 3000, 2000, 也就是說是按讚數過低, 也就是代表大家覺得震驚, 而擁有較多的分享與討論, 而按讚, 分享與討論數而若是 12000, 300, 300 的話代表 300, 150, 100, 代表是按讚數過高, 也就可以猜這是娛樂新聞或業配文機會較高.

而大家想要找出自己的想法與觀察, 可以從 臉書社群排行榜 (24小時內新聞的讚享評), 以及 臉書金榜 (歷史較高讚享評的新聞), 而目前臉書金榜的要求就是 40000, 2000, 3000 個讚享評, 大家可以試試看....

熱門文章