有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.
事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.
若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.
這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:
1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....
2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.
3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.
4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.
5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.
6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..
大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.
在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好), 目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~
API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲
訂閱:
張貼留言 (Atom)
熱門文章
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"... 事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
這次參與資策會的社群力指標, 在前一篇的講 部落客百傑 的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的...
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 ...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
應該說是在礁溪... 第一次不在台南家, 也不在淡水家過年, 而是趁這時候從東部環島回去... 比較可惜的可能也是第一次缺席聚星日吧... 所以除夕的行程是: 11:40 出發 12:30 去富基買生魚片吃 14:30 到福隆吃便當 17:00 到旅館 18:00 到礁溪晃一圈就...
-
"若有一個像噗浪一樣好用的系統, 但有小圈圈的功能, 我二話不說一定會跳過去..."---- GH404X, 2009 (噗浪第一年) 在 Google+ 襲捲台灣不到兩個星期, 噗浪在 Alexa 跌了一名, Twitter 留言銳減, Facebook 有...
-
當我要寫新的 Blog 跟大家講 Blogger 出問題時, 按下新文章出現: 警告 此 blog 已被 Blogger 的垃圾 blog 阻擋漫遊器鎖定。 您將無法發佈文章,但您可以將其儲存為草稿。 請將您的文章儲存為草稿,或 按這裡,以瞭解發生什麼事與如何解除...
-
剛剛坐到一部相當恐怖的公車, 但不恐怖不要打我... 因為是下雨天, 所以是坐公車從淡水捷運站來回通車的日子, 很幸運的一下捷運還沒刷卡就看到紅 26 從我面前經過, 即使我身上帶著 5 公斤重的 "老四川" 鍋底, 我想只要快步走就可以趕上, 跑是不可能...






沒有留言:
張貼留言