有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.
事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.
若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.
這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:
1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....
2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.
3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.
4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.
5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.
6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..
大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.
在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好), 目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~
API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲
訂閱:
張貼留言 (Atom)
熱門文章
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
在開始寫這篇之前, 先弄個小 box 讓大家回顧之前有關 網站完全評點 (原SEO鑑價系統) 的文章: 對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I) 內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II) 你找的 SEO 公司真的有成效嗎? (SEO 鑑價...
-
當我們做出一個系統, 最希望知道的是有沒有檢定判讀的能力, 不然價值與意義就會少很多, 而在做未來國會的時候, 很多人問我, 網路聲量是否能夠轉化成得票數? 事實上我也是很好奇.... 首先一開始, 就直接算出得票數與網路聲量的相關性 (相關係數), 得出來的答案是: ...
-
在我寫出前言後, 當天晚上就把當時所說的數字的計算中兩個未寫入的就直接加進去後, 演算法就算是定型了, 然後就是未來的幾個部份: 1. 歷史: 當然每一週的變化是要可以記錄, 但是 "追加" 的部份怎記就是一個大問題. 2. Widget: 本來這系統正式要出...
-
依 IMDB 超過 1 萬人以上評分的順序 降世神通 1. 9.3 Avatar 降世神通 2. 9.2 Ricky and Moorty 3. 9.1 鋼之鍊金術師 Brotherhood 4. 9.0 進擊的巨人 5. 9.0 獵人 6. 9.0 死亡筆記本 11. 8.8 ...
-
民進黨為了要決定提名,因此辦了民意調查,來決定候選人,而公布高雄市的民調時,嘗試跟 "專頁儀表板" 做了個比較,發現相關性達到 0.99 以上這個令人吃驚的事,但第二天台南的民調跟專頁儀表板的相關性只有 0.03,這數字可以說是完全無關,而 0.99 的相關性...
-
事實上有人已經在試用我剛寫出的 Google Tool Bar for plurk friend 的中間版, 雖然還有幾步須要完成, 但已經可以看到一些有趣的數字了... 在官方的說法說, 一個人最好的卡瑪值應該是 40~60, 而朋友數也應該是如此, 但除外, 還有甚麼東西是可...
-
這次莫拉克風災不得不否認的是政府處理真的有暇疵, 但我也不得不幫政府說句話, 因為若不是網路的關係, 事實上很多事都不會被發現, 更不會放大檢驗, 只能說運氣太差了.. 讓我想到三個月遇到某個公務人員長官, 他在會議提出一個嚴正的抗議與意見: "你們發展技術的人是如此的...
-
雖然說我花在噗浪的總時數是超過臉書的, 但事實上我 Plurk 是 2008-6-10 加入的, 而臉書卻是在 2006-9-28 六年前的今天加入的. 當時會加入是想要了解臉書這系統的狀況, 而那時候算是第一批讓非美國大學生註冊的開放測試, 也因此在沒有朋友的情型下, ...






沒有留言:
張貼留言