有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.
事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.
若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.
這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:
1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....
2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.
3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.
4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.
5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.
6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..
大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.
在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好), 目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~
API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲
訂閱:
張貼留言 (Atom)
熱門文章
-
在標題應該是這樣子的: (我的(你的(我的小城市))), 因為是在想我如何使用 (你我的小城市) 這個系統~~~, 當然還是在講 MyMiniCity .. 有點繞口.. 首先先講不是我做的部份, 在 Create My City 的 Forum 看到一篇, A List of ...
-
明明所謂的政治是所有人的事, 但在權力與媒體運作的情型下, 感覺政治只有政治人物才玩得起的遊戲, 難到真的是這樣嗎? 從臉書的掘起, 粉絲團現在變成所有政治人物展現實力的一個場所, 甚至現在的選戰運作理論分成三種力量: 1. 陸軍 : 看政治人物自己的實力, 人脈, ...
-
Weather.DataMining.Tw 做了一個多月了, 這代表資料也搜集一個多月了, 已經幾乎到可以發表的狀況了, 且有個記者朋友也真的寫了篇採訪稿, 但他跟我們講中央氣象局的人說我們的資料有問題, 我一面岔意一面檢查, 果然資料真的有問題. 雖然在這種抓資料的程式, 最麻...
-
標題這句話怎模說呢? 在這次地震之前, Page Rank 是 6 的部落格有 15 個, 而算到剛剛, 目前有 13 個部落格的 PR 值是 6 分, 且其中有 7 個部落格是進步到 6, 這句話是說, 原本的 15 個 PR=6 部落格中, 只有 6 個是保持不變的, 這句話...
-
這篇報導是在 http://tw.news.yahoo.com/article/url/d/a/100809/11/2ar0a.html 這裏, 到中午, TWNIC 的人就一直打電話給我, 而我還在會議中搞不太清楚是甚麼, 但就大意上面指的都是講了很多有問題的話, 而我一上...
-
很少在標題直接破題的, 因為說當天要寫的, 一晃眼又過了一個月, 雖然現在是比較心平氣和的看這件事情, 但有時還是會有點無奈. 這件事是發生在某個研討會上, 而大家都知道部落格觀察或部觀門都是看誰說得好, 大家在說甚麼的系統, 包含之後的 Plurk.tw, 我一直對於 Data...
-
用了 3.5G 以後, 最大的問題是若是沒有正常慢慢退出的話, 很有可能因為系統認為虛擬光碟還在, 所以不讓你休眠.... 所以此時比較好的方式就是先登出後再休眠, 只是要花較久的時間.. 而昨天當我按休眠後不給休眠, 我就按開關 7 秒鐘後直接關機, 沒想到第二天慘劇就發生了,...
-
上一篇還有很多沒寫到的地方: 1. 在最初的規劃這個數字是 Increamental 的, 也就是為了避免沒有抓到資料時的問題, 而這三種數字有兩個是一直增加的, 一個卻是在變化的. 2. 在第二組的距離, 事實上最後應該只會採用一個, 做一下 x*y*z 應該對資源影響不大. ...
-
在半個月前開始計算推噗次數, 現在來統計一下, 看有沒有出乎意料 Times Plurker Content 43 thebz1 推 房東很委婉的形容了,同學請� 30 formosadream is 彭醫師和您分享~目前最佳 賞� 27 jasonforce 推 IE6, 你給...
-
很意外的到了 2007 年, 因為心態好像 2006 年還有一大堆 ToDo 還沒做, 而因為前一個月跑去國立藝術大學的達文士吃晚餐, 發現那邊看 101 蠻清楚, 所以就決定跨年在那邊看.... 很幸運的在那邊是屬於一種很 High 但又不擁擠的感覺, 又有點人文藝術氣息且不...
沒有留言:
張貼留言