[網址] http://tag.analysis.tw/diff.php
事實上標籤不是個很新的東西, 無論就圖書館學, 或地質學, 都有用類似的技術來做資訊的搜尋與分類, 雖然在約 10 年前 Web 2.0 爆發時代, 就已經很強調 Tag (標籤) 的重要性多於分類, 但那只是在類似 UGC (User Generated Content) 使用者產生的內容比較常用, 主流媒體真的跟上 Tag 的腳步還是沒那麼快, 即使到現在, 還是有很多新聞網站或內容網站不習慣使用 Tag, 包括台灣很主流的蘋果日報, 自由時報與聯合報.
但不代表已經開始使用標籤的媒體是跟得上的時代, 還是有很多媒體的記者或編輯, 在下標籤 Tag 的時候, 還是以 "分類" 的管理角度來下標籤, 雖然這並不是不對, 因為現在而言, 分類與標籤的界線已經越來越模糊, 甚至有很多網站已經放棄分類的概念, 慢慢的轉向標籤的使用, 至少在較為 "先進" 的分類標籤已經沒有階層的上下架構, 開始以網路狀關係去連結 "分類", 此時分類的觀念就已經不一樣了.
只是在下標籤 Tag 還是有些訣竅的, 雖然圖書館學已經有很多分類的技巧, 但真的要應用到去下標籤還是要做一些轉化才行, 很可惜大部份的人還是在摸索階段, 甚至不少還沒了解標籤的真正價值.
身為一個唸過圖書館的網路工作者, 身為一個 SEO 的玩家, 身為一個喜歡數字的二流數學家, 身為一個會自己做系統來了解事物的工程師, 身為一個大量資料的愛好者, 一直說要開發一個系統能夠幫助編輯, 或是部落客來去協助建立作者與讀者的連結, 之前透過關鍵字的延伸已經做過很多工具, 只是以現在的角度是相當不夠的, 主要因為:
1. 這些關鍵字必須是使用者進來才會知道.
2. 經營搜尋引擎知道關鍵字的比例已經越來越低了.
3. 你只能知道自己的角度, 沒辦法透過別人的角度來看標籤.
4. 這社會的脈動有時是很難抓到的.
因此這想法與須求已經想很久了, 且慢慢的構思與想出較為可行性的方法, 然後拖了一年多後, 終於開始動工與做出雛型, 果然對我而言就又是 "想了三年, 構思兩年, 拖了一年, 花了三天" 的作品之一.
要做出這系統的步驟與架構是:
1. 要能夠知道新聞與內容網站的新文章列表, 有時靠 RSS 就可以做到.
2. 有些文章是有設 Tag 與標籤的, 將之確認.
3. 判斷與建立每個時間點與歷史的標籤資料庫.
4. 以現在或一個時間點去做比對.
如此一來, 就可以去產生一個正在成長的標籤列表, 這代表的是說這概念的新聞與文章越來越多到一定的數量, 就很合適做為新聞網站或內容網站的參考, 來了解自己文章下的標籤是否有價值, 或是做為下標籤與尋找內容創作的參考.
這三天已經寫完超過 20 個網站, 可以把最新文章的 Tag 標籤自動匯入到資料庫, 目前因為顧問與興趣, 這些網站主要分成三類, 新聞, 科技與3C, 女性網站, 如此就可以做為網站的編輯經營者很好用的 "標籤" 參考系統.
只是這系統從做出來到大家看到, 又是經過 N 次演算法的調整, 前前後後嘗試了幾十種算法來做微調, 在一開始我在臉書是這樣發言的:
看排行榜最無趣的是若是每天看一次, 可以知道不少新的資訊, 但對於從業人員是每小時都要跟上最新的時事, 因此不可能只看排行榜..目前的 t1 是 24 小時, t2 是 48小時, 而 cond 條件有兩種, 一種較為寬鬆的是至少要有兩個媒體有出現此標籤兩次以上, 而較為嚴儘的是要有一個媒體有三次以上, 兩個媒體有兩次以上, 三個媒體有一次以上, 且比較的方式有時間與非時間, 因此大家可以看到這標籤會有兩個屬性:
所以這次是以正在上升發酵的新關鍵字, 也就是在一定時間t1內出現在一定的次數與媒體cond, 且這關鍵字在一定時間t2內是沒出現過, ...
上面的 t1, t2, cond (條件) 目前還在調整, 且資料不夠完整須要更多的累積, 我想過不久應該會更有意義, 但現在已經可以在一定時間內跟上時事了....
跳升 (紅色) : 指的是上一個時間即使是寬鬆的條件也沒有出現.
新 (New): 在目前的系統還沒有此關鍵字.
也就是說雖然 "跳升" 是不須要時間累積的, 但 "新標籤" 須要時間去累積的, 就經驗往往須要三個星期到三個月才能收斂到一定實用的結果, 但在目前做為參考用已經不是太大問題了.
當然這系統理論上要能夠真的實用, 還是要跟網站既有的編輯系統做整合, 也就是說要做出一個合用的 API 來串接, 這樣才能夠開始創造出這系統真的價值, 只是最後還是要人去解讀去 "創作", 這就是不是這篇文章講的, 請等下一篇吧.
沒有留言:
張貼留言