2015年1月26日 星期一

從 Big Data 來解盤六都市長的未來與困境....

有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.

事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.

若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.

這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:

1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....

2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.

3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.

4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.

5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.

6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..

大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.








在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好),  目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~

API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲

2015年1月12日 星期一

風傳媒是新聞媒體中下標籤最高明的嗎? 從標籤來媒體大解析....

[Quote] 標籤在媒體中的使用可以看到其議題的方向與設定, 所以一個媒體的屬性或標籤下得好不好, 都可以定義一些指數來去做分析與觀察, 這又是可以算是大數據的粹取方法之一.

[網址] http://tag.analysis.tw/media.php

在這邊已經不須要太去強調標籤 "Tag" 的重要性, 雖然現在還是不少媒體不了解標籤的價值, 甚至把標籤當作是 "分類" 來看, 雖然這個也不須要在這邊講, 但說要去判別那個媒體的標籤下得好沒那麼簡單, 甚至我們應該很確定的是要依媒體的屬性來去區分才能比較, 但每一個媒體都有自己的特色, 真的要集合在一起比較是沒那麼容易.

但嘗試著以新聞媒體網站來做分析, 或許是比較容易一些, 但到現在, 蘋果日報, 自由時報與聯合新聞網還是沒有 Tag 標籤系統來看, 這樣的比較多少有點缺撼, 只是這也是不得已的.

而要如何定義好不好, 本來就是見人見智, 而這邊嘗試著用三種操作型定義來看標籤的使用:
1. 重合度: 這媒體所使用的標籤的重要度 (數目次序) 是否跟人一樣?
2. 導引潮流度: 若這標籤已經被大家認定是有價值, 那第一個使用的人是那個媒體?
3. 跟上潮流度: 這媒體用的標籤是不是大家都在用, 還是只有一兩個媒體有在用的?
因此嘗試著用這三個角度來看媒體在標籤的使用狀況, 當然這邊有嘗試著做操作型定義, 並嘗試指數化或正規化, 下面就是這三個量度的演算法, 若沒興趣可以跳過.

1. 重合度: 將此類媒體的標籤總合排序, 然後跟單一媒體標籤排序作比較, 算出單一標籤在這兩個排序的比例差距, 然後乘上這標籤是排序超過多少百分比 (越前面的越重要), 然後加總後除以標籤總數的正規化因子 (目前是除於總數與總數的對數).

2. 導風率 (導引潮流度) : 當這標籤已經超過一定的重要度 (有三個媒體使用, 且兩個媒體用超過兩次, 及一個媒體用超過三次), 算出此標籤是誰開始使用 (最近一次的一個媒體使用後, 在後 12 小時內有人接續使用, 且前 24 小時內沒有媒體使用), 將此次數加總後除標籤數.

3. 跟風率 (跟上潮流度) : 這個媒體所使用的標籤是否是至少有三個媒體都有在使用的比率.

這三個數字當然以合理的觀點當然是越高越好, 在這邊嘗試著算出來做成下表:

 (此表格的特殊標籤指的是這媒體常用但別人少用的標籤)

 在這邊我們可以看到, 若是以重合度的角度來看, 表現最突出的是風傳媒, 而一直排名在前幾名的有三立, 關鍵評論, 中央社與工商時報, 表現較差的是華時, NowNews, 新頭殼, 台視與 TVBS, 而東森新聞雲一直有自己的風格.

在導風率而言, 表現最好還是風傳媒, 但跟中時, 工商時報與中央社並沒有很大差距, 而其中相反的是關鍵評論網幾乎是沒有創造話題的能力, 但這也是跟其記者數最少有關吧, 除外表現較差的是東森新聞雲, 三立與 Nowews.

從跟風率來看, 中央社, 新頭殼是在前面, 風傳媒與旺報次之, 表現較差的是關鍵評論, 東森新聞雲, Nownews 與華視.

從這邊甚至可以分析每個媒體的屬性:

1. 風傳媒: 文章與標籤都很少, 但跟整體時事很重合, 無論是導引潮流或跟上潮流都是沒問題.

2. 三立: 雖然說相當跟得上潮流與時事, 但相對的導引風向的力量相當弱.

3. 中時: 重合度與跟風率幾乎可以說是表現平平的媒體, 但很明顯的有帶動潮流的能力.

4. 東森新聞雲: 重合度平平, 但跟風率與導風率表現算較差的, 簡而言之是雖然跟上潮流, 但有自己風
格, 只是也沒甚麼其他媒體想跟上.

5. 關鍵評論: 重合度分數算是相當好的媒體, 但能夠引導其他媒體跟上的獨家的能力幾乎是沒有, 只是也常有自己不一樣的方向.

6. 中央社: 跟大家想的一模一樣, 相當中規中矩的媒體, 但有能力呼風喚雨.

這邊就分析上面六個媒體, 主要是我鄉愿的個性只習慣說人好話, 壞話就不公開說了, 我不會講得高興, 當事者 (媒體) 也不會覺得中聽, 若是你是有能力改善或真的想聽, 再來說也不遲, 不然就只是純放砲而已.

雖然標題說風傳媒應該是下得最好的媒體, 但事實上每一個媒體都有自己的特色與方向, 這也是必然的, 因為每一個媒體都有自己的風格與立場, 想要靠單一媒體追求公正客觀, 就跟緣木求魚沒甚麼兩樣 (彈塗魚例外), 但從系統的建立, 導引, 指標與分析, 能否幫助大家在了解議題, 深入議題更多, 無論是對編輯或是讀者而言都有意義, 這才是這系統的目的.

2015年1月2日 星期五

不知如何找議題與下標籤才是對的嗎? 來試試看即時標籤系統

[原標題] 標籤建議系統的雛型, 即時熱門標籤的價值與實作

[網址] http://tag.analysis.tw/diff.php

事實上標籤不是個很新的東西, 無論就圖書館學, 或地質學, 都有用類似的技術來做資訊的搜尋與分類, 雖然在約 10 年前 Web 2.0 爆發時代, 就已經很強調 Tag (標籤) 的重要性多於分類, 但那只是在類似 UGC (User Generated Content) 使用者產生的內容比較常用, 主流媒體真的跟上 Tag 的腳步還是沒那麼快, 即使到現在, 還是有很多新聞網站或內容網站不習慣使用 Tag, 包括台灣很主流的蘋果日報, 自由時報與聯合報.

但不代表已經開始使用標籤的媒體是跟得上的時代, 還是有很多媒體的記者或編輯, 在下標籤 Tag 的時候, 還是以 "分類" 的管理角度來下標籤, 雖然這並不是不對, 因為現在而言, 分類與標籤的界線已經越來越模糊, 甚至有很多網站已經放棄分類的概念, 慢慢的轉向標籤的使用, 至少在較為 "先進" 的分類標籤已經沒有階層的上下架構, 開始以網路狀關係去連結 "分類", 此時分類的觀念就已經不一樣了.

只是在下標籤 Tag 還是有些訣竅的, 雖然圖書館學已經有很多分類的技巧, 但真的要應用到去下標籤還是要做一些轉化才行, 很可惜大部份的人還是在摸索階段, 甚至不少還沒了解標籤的真正價值.

身為一個唸過圖書館的網路工作者, 身為一個 SEO 的玩家, 身為一個喜歡數字的二流數學家, 身為一個會自己做系統來了解事物的工程師, 身為一個大量資料的愛好者, 一直說要開發一個系統能夠幫助編輯, 或是部落客來去協助建立作者與讀者的連結, 之前透過關鍵字的延伸已經做過很多工具, 只是以現在的角度是相當不夠的, 主要因為:

1. 這些關鍵字必須是使用者進來才會知道.
2. 經營搜尋引擎知道關鍵字的比例已經越來越低了.
3. 你只能知道自己的角度, 沒辦法透過別人的角度來看標籤.
4. 這社會的脈動有時是很難抓到的.

因此這想法與須求已經想很久了, 且慢慢的構思與想出較為可行性的方法, 然後拖了一年多後, 終於開始動工與做出雛型, 果然對我而言就又是 "想了三年, 構思兩年, 拖了一年, 花了三天" 的作品之一.

要做出這系統的步驟與架構是:

1. 要能夠知道新聞與內容網站的新文章列表, 有時靠 RSS 就可以做到.
2. 有些文章是有設 Tag 與標籤的, 將之確認.
3. 判斷與建立每個時間點與歷史的標籤資料庫.
4. 以現在或一個時間點去做比對. 

如此一來, 就可以去產生一個正在成長的標籤列表, 這代表的是說這概念的新聞與文章越來越多到一定的數量, 就很合適做為新聞網站或內容網站的參考, 來了解自己文章下的標籤是否有價值, 或是做為下標籤與尋找內容創作的參考.

這三天已經寫完超過 20 個網站, 可以把最新文章的 Tag 標籤自動匯入到資料庫, 目前因為顧問與興趣, 這些網站主要分成三類, 新聞, 科技與3C, 女性網站, 如此就可以做為網站的編輯經營者很好用的 "標籤" 參考系統.

只是這系統從做出來到大家看到, 又是經過 N 次演算法的調整, 前前後後嘗試了幾十種算法來做微調, 在一開始我在臉書是這樣發言的:
看排行榜最無趣的是若是每天看一次, 可以知道不少新的資訊, 但對於從業人員是每小時都要跟上最新的時事, 因此不可能只看排行榜..

所以這次是以正在上升發酵的新關鍵字, 也就是在一定時間t1內出現在一定的次數與媒體cond, 且這關鍵字在一定時間t2內是沒出現過, ...

上面的 t1, t2, cond (條件) 目前還在調整, 且資料不夠完整須要更多的累積, 我想過不久應該會更有意義, 但現在已經可以在一定時間內跟上時事了....
目前的 t1 是 24 小時, t2 是 48小時, 而 cond 條件有兩種, 一種較為寬鬆的是至少要有兩個媒體有出現此標籤兩次以上, 而較為嚴儘的是要有一個媒體有三次以上, 兩個媒體有兩次以上, 三個媒體有一次以上, 且比較的方式有時間與非時間, 因此大家可以看到這標籤會有兩個屬性:

跳升 (紅色) : 指的是上一個時間即使是寬鬆的條件也沒有出現.
新 (New): 在目前的系統還沒有此關鍵字.

也就是說雖然 "跳升" 是不須要時間累積的, 但 "新標籤" 須要時間去累積的, 就經驗往往須要三個星期到三個月才能收斂到一定實用的結果, 但在目前做為參考用已經不是太大問題了.

當然這系統理論上要能夠真的實用, 還是要跟網站既有的編輯系統做整合, 也就是說要做出一個合用的 API 來串接, 這樣才能夠開始創造出這系統真的價值, 只是最後還是要人去解讀去 "創作", 這就是不是這篇文章講的, 請等下一篇吧.

熱門文章