有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.
事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.
若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.
這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:
1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....
2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.
3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.
4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.
5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.
6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..
大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.
在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好), 目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~
API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲
訂閱:
張貼留言 (Atom)
熱門文章
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
又一個是乍看很漂亮, 功能很多, 資料也不少, 但完全沒有經營概念與基礎的網站, 為甚麼政府單位的網站都是這樣阿.... 基本上要討論裏面內容的問題可能討論不完, 我先說以內容與經營相關 SEO 的角度來看這網站的問題: [主要問題] description: ...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
基本上我上一篇的 " 我為甚麼要 Plurk ? " 講出來了用 Plurk 的人並不是很多人都有在經營部落格, 所以前一篇的 " Plurk 的個人 Widget 開始... " 是挺沒有意義的, 因為這 widget 不能放進 plur...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
在看排行榜之前, 應該會依幾個角度來看... 1. 媒體的排名, 其中包含傳統媒體在新媒體的成果, 以及純網路新媒體本身. 2. 轉貼站的效應. 3. 個人自媒體的比例. 取樣時間, 上星期, 也就是 7/7 到 7/13 號, 我們來看分享排行榜吧... 分享排...
沒有留言:
張貼留言