2015年4月22日 星期三

[新文易數] 用自己角度來看新聞, 新聞事件簿的背後意義

網址: http://tag.analysis.tw/events/

[QOTD] 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引.

從標籤的計數, 分數到計算被注目的爆發度, 進一步的透過等價標籤組成事件, 最後從時間的前後關係組成事件簿, 這路程走過來是相當有趣.

所謂的事件就是透過一群有關聯的標籤所組成, 目前每個時間點能夠切出有意義的事件約是在 30~40 件左右, 這可以在 "事件表" 看到.

但每個時間點 30~40 件事件跟下一小時(時刻) 的 30~40 件其事件與標籤的組合都是有或多或少的差異, 若是用標籤關聯來計算, 每次計算永遠是不一樣的, 也就是說每天若算 96 次, 就會產生 3000 個事件, 這是沒有意義的, 所以要把這每次所產生的組合, 依時間性再做一次組合才行.

在計算之前, 我當時猜測每天會有 20~30 個事件發生, 而其中有 10~15 件會持續到第二天, 也就是一半會結束, 用這數字來看的話, 會面聯到幾種參數可以調整:

1. 時間的連續性: 要多久當這事件關聯性消失才是下一個事件?
2. 關聯性的高低: 要多少比例的重合度才是相同的事件?
3. 標籤的集合: 要多少個標籤當作母體來計算重合度?
4. 事件要怎樣情型下才會組合與分裂?

最後自己想做了 N 年, 經過 N 個月的思索, 以及 N 個星期的規劃, 以及花了 N 小時做出第一個版本, 然後再花 N 天, 大改了 N 次, 以及小改了 N! 次, 總算是做出有意義的東西了.... (註: N 介於 5~10).

這樣就可以把每天有 10000(兩萬) 篇 的新聞組合出 30~40 個事件, 而我們在閱讀新聞的時候, 就可以選擇想要多看那不同的, 或者是多深入看些有意義的新聞, 以及跳過沒意義的新聞.

為甚麼會這樣說呢, 事實上台灣的新聞若是一天會報導 100 則新聞, 其中花了 50% 的版面與資源在報導約 2 則記者認為的重點新聞, 然後 25% 報導約 10 則的其他新聞, 最後的 25% 留給剩下的 88 則, 若是那 2 則, 或是  10 則是有意義的新聞就好了, 但通常這些都是假公義的新聞居多, 或者多是只須要很少的資源, 就可以聚集到很多目光的新聞, 甚麼深度與廣度就不是那麼重要了.

像現在英國藍今天就有超過 200 則以上的新聞,  估計一整天應該有 300~500 篇新聞講英國藍, 這數量就占了所有新聞的 5%, 而相同的大巨蛋也是有相同的數量, 也就是說有 1/10 的新聞在講兩件事, 這數字看起來不可怕, 但事實上有 9 成的新聞是搏不到焦點的, 也就是說在社群上一天能夠有 10 次以上的讚享評還不到 1000 則, 雖然說這兩則新聞也不是都能夠有 10 次以上的讚享評, 但有 500 則來爭取這 1000 則的名額就知道新聞的炒作是多嚴重了.

但我們知道記者不是故意炒作, 而是人本來就是健忘, 也容易被焦點給吸引, 記者也是人, 加上編輯也是人外, 更有其他因素的考量, 即使不是須要操作, 也會把目前的新聞變成不到幾件搏版面的事, 記得我在上個月的臉書寫到:

在 30 年前三台的時代, 因為政治氛圍的關係, 所以大部份的資訊都被屏壁, 能夠被三台說出來的觀點, 可能是 30% 還不到, 但相對的大家資訊來源也很貧乏, 一個人一天可以吸收 300 則新聞也佔這些新聞的六成了, 也就是一個人可能只接觸到約兩成的資訊與觀點, 八成的資訊都不知道.... 很慘....
但你以為 30 年後的今天, 大家能夠透過資訊看到更多觀點嗎? 事實上則不然....

由於現在有很多太多的媒體與太多的資訊, 雖然可以說已經有 90% 觀點的資訊都被寫出來與傳播, 只是這散佈在 100 倍的資訊, 也就是 5萬則訊息, 而人雖然吸收資訊的能力也成長了 10 倍以上, 就這數字來看反而人能夠看到的觀點只剩下 5% 而已, ....

你以為是這樣嗎? 事實上是更糟, 因為社交泡沫的關係, 你只看得到跟你思維較為接近的事情, 因此這效用讓本來就不平均的資訊傳播得更狹隘, 你只剩下能接觸到所有觀點的 60%, 最後你只看得到社會 3% 的觀點...

這些指的還是一般人, 若是你不幸的是在慈濟, 法輪功, 清海無上師這些團體, 這些團體所創造的資訊量, 早就超過一個人每天能夠吸收的好幾倍, 所以你接收到的資訊很可能只剩下這 0.5%, 甚至更低比例的人與團體所創造的訊息, 且因為你接觸的同儕都是這樣想, 所以你會認為這 0.5% 是這社會的 100%....

所以重組新聞是有必要的, 透過重組新聞讓選擇事件與議題交在讀者手上, 而不再是被記者或編輯決定, 或是被 "媒體財團老版" 指引, 只是這想法很簡單, 但做起來沒那麼簡單, 甚至我在去年以前認為這是難以達成的想法.


在這邊稍微說一下閱讀方法:

1. 初次時間: 這議題事件第一次記錄的時間
2. 最近時間: 目前記錄到最後一次的時間
3. 總時數: 上面兩個時間的差距
4. 最重要的標籤: 在這個時間的主要標籤, 其中爆發力分數最高的標籤與分數
5. 最後標籤: 當結束時產生關連的標籤
6. 小時 (過濾): 總時數超過一定時間
7. 分 (過濾): 依最重要標籤的爆發分數過濾
8. 代表新聞: 會選出一則代表這事件的新聞, 也就是標籤密度最高的新聞

其中最後標籤以後應該會用 "主要標籤" 來取代, 因為發現用最後標籤來算代表新聞似乎不夠準確, 但這就放進 Todo 了.

當做完這系統, 就可以做為新聞的導引了, 也就是真的我們接下來可以做出自己新聞閱讀與觀看的 "可控制與學習的搖控器", 所以說這只是個副產品, 或是必要關鍵一點也不為過, 只是做出這個副產品也太辛苦了點.

P.S. 有了事件簿, 我們可以套用在標籤上, 變成標籤的事件簿, 例如看 "賴清德標籤事件簿", 可以從時間軸來看有關賴清德的議題及重要新聞, 但相對的在對應標籤與重要新聞還是有再調整的空間.

2015年4月2日 星期四

新文易數的亞投行 (AIIB) 特輯

[QOTD]記得開始在關心亞投行的社群聲量變化時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

目前亞投行各國的狀態
新文易數是原本是一個為了讓專業的記者與內容編輯人員, 了解現在大家最常用的 Tag 標籤, 做為自己下標籤與寫內容方向指引的系統, 但隨著 "事件表" 的完成, 進一步的做出成新聞牆, 甚至做成 "OVO 電視台" 的實作, 也慢慢的嘗試走向給 End User 使用的系統.

最後當結合 Facebook 臉書的讚享評 (Like, Share, Comment) 後, 這資料不再只是個 PGC (Professionally Generated Content)/ OGC (Occupational) 而已, 在某方面已經開始導入 UGC 的資料 (雖然只是數字), 這資料不只是用來做為更精確的分析所使用, 更多了一些功能, 其中就是 "社群聲量".

或許這又是個魔咒, 這系統是在 3/20 號完成, 雖然亞投行那時已經開始有資料, 但對大部份人而言是一個不起眼的 Tag, 記者專注度雖然是在 30~35, 但社群聲量只有 10~15, 甚至在某時候都在記錄之外 (數字過小), 那時候大家的焦點是在輻射食物, 就是山老鼠案, 接下來是李光耀與德航, 但在 3/30 下午時完全不是這麼回事.

首先在 3/30 中午 12:00 時, 社群聲量首次突破記者專注度達到 40, 第二天中午就已經變成最重要的事件, 甚至接下來就屢創記錄, 社群聲量從 200, 300, 一直飆到 500, 600, 而現在還沒停下來, 在之前的最高的柯文哲等, 大概也還沒突破 300 分, 但從在總統府前開 Party 後, 就超過 300 分...

(上圖是亞投行這標籤的社群與記者熱度, 可以在亞投行社群熱度讀取)

原本在工作的我, 也停下來看局勢的發展, 到 2 點時, 已經超過 400 分了, 此時覺得這在社群說不定是個很有趣的經驗, 所以趕緊透過新文易數的功能, 做了個 "亞投行特輯", 讓大家知道新文易數在這部份該怎用, 其中就做了幾個功能:

臉書討論連結: https://www.facebook.com/genehong/posts/10153356955479728

1. 基本資料: 可以看到現在是甚麼狀況, 其中包括有關係的標籤, 文章數 (今年/72小時/24小時), 最近不同媒體的五則新聞, 以及每小時的新聞則數 (熱度).

2. 即時新聞: 搜集約 30 家媒體的資訊, 依時間序排列出來最新的 300 篇新聞, 其中也包含標籤, 及系統自動化加入的標籤.

3. 新聞牆: 最近 24 小時內在 youtube 有關亞投行的新聞.

4. 社群熱度: 這也是重點, 從這邊可以看得出來社群聲量與記者專注度的相互關係.

5. 最熱文章: 這三天內分享最多的新聞, 可以切換週期與讚享評不同的排序

這是我當時想到直接可以派上用場, 讓大家透過新文易數知道最新, 最熱的資訊, 以及社群聲量與新聞記者專注度的差異的一個工具, 只是亞投行這件事目前是很聚焦, 幾乎用此標籤 (Tag) 就可以撈到大部份的新聞, 且誤撈的機會較少, 所以不太須要去做組合.

記得開始在關心這件事的時候, 有一個在大學教新聞的朋友, 問了我一個問題: "如何知道社群是否有人在操作", 此時我回答一句話: "操作社群按讚享評的難度比操作記者寫作方向多上好多倍吧?", 當時也是剛好是 30 號下午開始反轉的時候.

這也是所謂 "Entropy 亂度" 的差異, 記者再多, 新聞再多, 往往是有限, 甚至同質性很高, 但讀者, 或即使經過社群影響的讀者, 每一個人差異是相當大的, 雖然我們都知道記者與社群都有力量在鼓動著, 但影響到的 "機率分布 / 自由度" 是不一樣的.

一則新聞很快可以上去, 只要記者大家都同時寫, 無論這是真的新聞或是業配文都一樣, 而從社群聲量來看很明鮮的就知道那些是讀者會有反應, 而那些是沒有, 但社群聲量是很難被拉高, 但若不小心像 "慈濟", "亞投行" 這樣上去, 就很難結束, 而慈濟因為對記者較沒有直接利害關係, 甚至可以靠關心(封口令)來改變, 但亞投行是個有兩種力量在角力, 看樣子還會燒一段時間.

這系統都有 API 來供大家做自己想看的呈現與圖表, 例如新聞的 json 是 http://tag.analysis.tw/api/aiib.php , 而想要看甚麼不同角度分析以及想拉甚麼資料的請盡量回饋給我, 說不定大家可以從這邊看到對資訊有不同的觀點.

雖然現在就行政院發言人說:「服貿協議是談完、簽好了,硬要台灣人民吞下去」, 未來會怎樣, 讓我們拭目以待...

熱門文章