有了 Tag (標籤), 此時我們就可以進一步的去 "求籤卜易", 尤其是看標籤的延伸, 此時就要 "祭出" 最常用的 Data Mining 方法之一 -- Relation Analysis 關聯分析, 來看這個標籤是與那些標籤 (關鍵字) 去做組合.
事實上在一開始寫的時候, "ACATTAG" (現在叫 "新文易數") 就已經有 "主要標籤" 與 "新近標籤" 的計算結果了, 但這個是很粗糙的, 因為在某方面是完全沒有 "Normalization" (正規化), 畢竟這是一個很吃資源的計算.
若沒有做正規化的話, 說實在也不會怎樣, 只是會讓 "大者恆大", 也就是越熱門的關鍵字越容易出現在前面, 雖然這在某方面觀點也不算是種錯誤, 畢竟在最近幾次的經驗, 這種大數字 (Big Data) 中, 有發生 "關係" (Relation) 是相當不容易了, 這在某種角度也是種在做 "自行正規化" 的一種動作.
這種正規化的 "動作" 在這種 Big Data 代表的是種 "集體意念" 的行為, 而在這個系統代表的是 "記者" 或 "編輯" 的角度, 而透過這樣的關聯分析算出跟這標籤的距離, 會看到很有趣的現像, 而在做出來時, 隨手看看目前六都市長目前面臨的難題是甚麼:
1. 柯文哲: 現在就是坐好台北市長這位子, 說不定在所謂的 "政治" 成熟度要更高一點, 而大巨蛋背後的議題是最麻煩的事, 相較三創就真的是 "尛" 事了....
2. 朱立倫: 沒有人管他是不是新北市長, 國民黨黨主席要接受的挑戰更多一些, 尤其是跟王金平與馬英久的關係, 只是除外一直被拿來跟柯文哲比較也是該注意的事.
3. 鄭文燦: 一開始雖然最大的問題是航空城的問題, 但當新屋保齡球館火警後, 這很明顯是個指標性事件.
4. 林佳龍: 台中市的問題從來沒少過, 從 BRT 到台灣塔, 這些都是胡志強弄出來的麻煩事, 但在某種概念的觀點他總是其他市長的附屬品, 很少人會單獨提到他.
5. 賴清德: 賴神似乎問題是最小的, 但也是最大的, 尤其是面對李全教的議會關係, 若沒搞好說不定會大崩盤.
6. 陳菊: 或許也是媒體的北大南小, 陳菊若沒好好跟中央有關係, 大概也不會有甚麼大作為, 現在唯一要處理的還是石化管線吧..
大家可以從名字點進去看, 其中可以到幾個數字, 一個是他與這標籤的數量與距離, 數量越大不代表距離越近, 因為也有可能是另一個標籤本身的 "基數" 是很大, 所以還是要經過某種程度的正規化, 如此一來就很好可以解讀了.
在這邊不只大家可以在 Tag 標籤頁點 "標籤距離" 可以看到, 更開放 API 讓大家來抓, 而且現在不須要 Authentication (因為還沒寫好), 目前是用 HTTP Get 透過 tag 參數來抓, 輸出是 json, 其中 Distance 就是距離, have fun~~~
API 範例: http://tag.analysis.tw/api/distance.php?tag=柯文哲
訂閱:
張貼留言 (Atom)
熱門文章
-
原本以為這程式是相當難寫的, 但在 AM 4:00 洗澡的時候, 仔細想想並不困難, 但應該說不困難的是在抓取, 但要顯示出有價值與意義的排行榜是相對困難的.... 後來花了不到半小時就有個雛型, 接下來就是顯示這排行榜, 而在昨天睡前 (AM 5:00) 時, 只是一個最近抓到...
-
現在是 3:42 分, 該睡了, 但一直想寫篇文章但都一直提不起勁, 大概是為了準備星期四博客來的會議, 讓整個心態與作息全部亂了, 在此時蛋捲個人站又掛了, 讓我的情續大概到了蠻低的低潮吧... 整個星期六日沒甚麼精神做事, 事實上大約在上星期二似乎就隨著部落格溫度計進到低點,...
-
這句話已經喊了不知多久了, 當時聽到 LG 出了一款可以 USB 連結的 LCD, 想說這真的是太好了, ... 但沒想到還沒真的上市就腰斬了(?), 後來找到原來這技術是一家叫 Display Link 的公司, 做的... 而我在兩年多前就開始採用雙螢幕, 而現在若是沒用雙...
-
剛很無聊的把噗浪的關鍵字趨勢圖畫出來, 大家有空可以去看看... 這是以話題的 "使用者比例" 為單位, 來跟自己比較, 若是去看原圖有週曲線, 月曲線以及最近一季的狀況: 但下面的圖當時是畫 4 個月 (因為當時也是這系統開始運作的時候), 以後會改半年. ...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
從分家到現在, 我還是維持著兩個都有在更新的狀態, ... 也因為身份的關係, 也沒去說那家比較好... 但當天空吃下蕃薯藤後, 有好有壞, 但大多是壞處.. 1. 自由欄位最多 10 個, 事實上蠻不夠用的... 2. 輸入資料無法全選, 必須去動滑鼠去選擇... 3. 引用似...
-
這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定. 而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就...
-
基本上我是屬於逃避加無所謂鄉愿型的人, 所以即使罵我我也很難生氣, 但還是會難過, 只是比較不會生氣... 所以這次會把回應關起來, 當然不是有誰在說我壞話, 因為這很常見也很習慣, 但最近真的 Spam 廣告訊息真的太多了, 所以先將回應暫時設成 "審核制"...
-
今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波... 這兩件事剛好都是 "言論自由" 很好的例子, 一個是...
-
我剛去看 iTHome 的部落格後台, 看有那些連結連到我章, 其中一個大陸的 Google Search 我點下去看時愣住了... "點點看" 結果出現: G o o g l e 錯誤 很抱歉... ...您的查詢疑似來自電腦病...
沒有留言:
張貼留言