事實上這篇文章不是要提出甚麼新的想法, 因為這個是在宅度計 (otaku.datamning.tw) 已經實作過了, 只是這次在部落客百傑又被提出來討論而已, 主要是為了回一則噗浪的訊息, 發現不是幾句話可以講完, 所以寫成這一篇....
當然有些有趣的觀念與觀點, 因為這樣的系統也是最近 iOS 6 很火紅的 Siri 的一個基礎, 也就是語意網路的發展, 但有趣的觀點也是在於到底系統要到多完整才是能夠實用的?
不得不否認無論是 Siri 或宅度計或部落客百傑用的 Semantic Web 語意網路的資料庫與方式都不夠完整, 但在某些觀點是: "若一個系統的實用不是在於多完美, 而是在於能不能用, 有沒有價值", 因為事實上我們都很清楚真的要做到完美的語意網路, 不是幾年內完成, 雖然一定遲早會完成, 或者是現在要做的是繼續完成.
嗯, 這不是重點, 而是有人對部落客百傑的 "專業度" 這邊的判斷提出很大的置疑, 這是不否認就成熟度是不夠的, 但事實上也沒有大家所想的那麼脆弱, 畢竟這也是大家好幾年的成果之一.
而我稍微來以 Q and A 來寫下面的內容吧, 甚至有些問題是沒人提過的, 是我們一直在努力去達到我們目標的問題:
Q: 專業度的判斷是判斷文章的專業性嗎?
A: 事實上用專業度這字有點語意的問題, 因為說起來應該是分類性, 也就是例如旅遊的專業度指的是文章對旅遊這分類的投入.
Q: 一篇文章只有一個分類嗎?
A: 事實上一篇文章可能有很多分類, 甚至應該說的是比例, 在實務上可能是只要是 30% 以上是這分類的, 就足以認為是這分類, 例如一篇文章是被判斷是 40% 旅遊, 30% 美食, 20% 時尚, 10% 其他, 在實務上可能就被判斷同時為旅遊與美食, 但這次比賽是如何我並沒有那麼確定.
Q: 是不是要文章有關鍵字才行?
A: 無論如何一定須要有相對應分類的關鍵字算出來的語意網路才有可能被列為其分類, 但我們知道要去 "窮舉" 分類的關鍵字是不太可能, 甚至關鍵字嚴格說是被 "訓練" (Train) 出來的, 訓練的完整度是須要資料庫的累積, 也就是時間越久, 分析的文章越多越準.
Q: 是不是要重覆提到關鍵字才行?
A: 事實上同一個關鍵字貢獻的分數有限, 寫個三五次後再多寫幾次, 就不會對此分類有多大貢獻了, 通常反而是使用更多相對應的關鍵字更多, 才反而對此分類有較多的貢獻, 只是關鍵字越多, 相對應的密度也會降低, 若可以集中一個分類會更有效, 但你寫作的時候考慮這件事是沒甚麼必要.
Q: 是不是所有關鍵字都只有一個分類?
A: 事實上關鍵字對一個分類的貢獻因素很多, 這個關鍵字的常見度, 字串長度, 跟這個分類的關係 (Relation) 與距離 (Distance), 都會影響最後分類的判斷標準, 除外還有母字串與子字串等等都是考量的因素, 這些都會化成距離的關係.
Q: 有沒有可能明明是某分類的文章, 因為對象過於冷僻, 所以沒算到?
A: 這次所使用的語意網路是數萬個關鍵字, 但事實上會用到個關鍵字是超過十萬到數十萬, 很肯定的一定不可能所有資料都會算到, 但對八成的常用關鍵字倒是沒問題, 但我們知道只要過於少人使用或真的過於 "專業", 就還真的算不到, 因此這語意網路一直在增加補足, 甚至每天都會增加, 但要去達到 100% 的覆蓋率是不太可能.
Q: 到底甚麼樣的關鍵字才是親子類?
A: 親子類是在這個分類最麻煩的, 因為在既有的語意網路並沒有建立親子類, 加上這部份文章都很發散, 從政治到生活, 各種分類都有可能, 所以在某種觀點是很難分類的, 但因為很多 BSP 都希望有這項分類來鼓勵親子的部落客, 所以這部份的語意網路在判斷上雖然很弱, 也希望下次會更準確.
現在先寫到這邊, 事實上語意網路分析是個很大的學問, 不是上面的 QA 就可以講完的, 但也嘗試著讓大家透過這幾個 QA 有點概念.
最後, 我上面所說的, 無法代表官方, 並不是說這是要幫誰在逃避甚麼, 因為寫程式的人不是我, 我提供的是演算法與已經在宅度計/部觀門所使用的語意網路, 而資策會原本就有既有的演算法與語意資料庫, 因此最終的程式計算是如何我現在是不知道的, 但方向應該不會差太多.
只是這篇文章是讓大家知道專業度分類的計算部份, 不是 S-Rak 的計算那一部份, 畢竟那又是一個可以寫比這篇文章更長的議題, 畢竟這次比賽用的是只是部份的 S-Rank, 加上因為比賽是不能因為有問題就可以調整改變公平性, 而未來的 S-Rank 會嘗試著解決這些問題, 但也只是等比賽過後了, 所以很多工作人員都經過這次比賽學習了不少, 但也期望做得更好.
訂閱:
張貼留言 (Atom)
熱門文章
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
又一個是乍看很漂亮, 功能很多, 資料也不少, 但完全沒有經營概念與基礎的網站, 為甚麼政府單位的網站都是這樣阿.... 基本上要討論裏面內容的問題可能討論不完, 我先說以內容與經營相關 SEO 的角度來看這網站的問題: [主要問題] description: ...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
基本上我上一篇的 " 我為甚麼要 Plurk ? " 講出來了用 Plurk 的人並不是很多人都有在經營部落格, 所以前一篇的 " Plurk 的個人 Widget 開始... " 是挺沒有意義的, 因為這 widget 不能放進 plur...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
在看排行榜之前, 應該會依幾個角度來看... 1. 媒體的排名, 其中包含傳統媒體在新媒體的成果, 以及純網路新媒體本身. 2. 轉貼站的效應. 3. 個人自媒體的比例. 取樣時間, 上星期, 也就是 7/7 到 7/13 號, 我們來看分享排行榜吧... 分享排...
沒有留言:
張貼留言