事實上這篇文章不是要提出甚麼新的想法, 因為這個是在宅度計 (otaku.datamning.tw) 已經實作過了, 只是這次在部落客百傑又被提出來討論而已, 主要是為了回一則噗浪的訊息, 發現不是幾句話可以講完, 所以寫成這一篇....
當然有些有趣的觀念與觀點, 因為這樣的系統也是最近 iOS 6 很火紅的 Siri 的一個基礎, 也就是語意網路的發展, 但有趣的觀點也是在於到底系統要到多完整才是能夠實用的?
不得不否認無論是 Siri 或宅度計或部落客百傑用的 Semantic Web 語意網路的資料庫與方式都不夠完整, 但在某些觀點是: "若一個系統的實用不是在於多完美, 而是在於能不能用, 有沒有價值", 因為事實上我們都很清楚真的要做到完美的語意網路, 不是幾年內完成, 雖然一定遲早會完成, 或者是現在要做的是繼續完成.
嗯, 這不是重點, 而是有人對部落客百傑的 "專業度" 這邊的判斷提出很大的置疑, 這是不否認就成熟度是不夠的, 但事實上也沒有大家所想的那麼脆弱, 畢竟這也是大家好幾年的成果之一.
而我稍微來以 Q and A 來寫下面的內容吧, 甚至有些問題是沒人提過的, 是我們一直在努力去達到我們目標的問題:
Q: 專業度的判斷是判斷文章的專業性嗎?
A: 事實上用專業度這字有點語意的問題, 因為說起來應該是分類性, 也就是例如旅遊的專業度指的是文章對旅遊這分類的投入.
Q: 一篇文章只有一個分類嗎?
A: 事實上一篇文章可能有很多分類, 甚至應該說的是比例, 在實務上可能是只要是 30% 以上是這分類的, 就足以認為是這分類, 例如一篇文章是被判斷是 40% 旅遊, 30% 美食, 20% 時尚, 10% 其他, 在實務上可能就被判斷同時為旅遊與美食, 但這次比賽是如何我並沒有那麼確定.
Q: 是不是要文章有關鍵字才行?
A: 無論如何一定須要有相對應分類的關鍵字算出來的語意網路才有可能被列為其分類, 但我們知道要去 "窮舉" 分類的關鍵字是不太可能, 甚至關鍵字嚴格說是被 "訓練" (Train) 出來的, 訓練的完整度是須要資料庫的累積, 也就是時間越久, 分析的文章越多越準.
Q: 是不是要重覆提到關鍵字才行?
A: 事實上同一個關鍵字貢獻的分數有限, 寫個三五次後再多寫幾次, 就不會對此分類有多大貢獻了, 通常反而是使用更多相對應的關鍵字更多, 才反而對此分類有較多的貢獻, 只是關鍵字越多, 相對應的密度也會降低, 若可以集中一個分類會更有效, 但你寫作的時候考慮這件事是沒甚麼必要.
Q: 是不是所有關鍵字都只有一個分類?
A: 事實上關鍵字對一個分類的貢獻因素很多, 這個關鍵字的常見度, 字串長度, 跟這個分類的關係 (Relation) 與距離 (Distance), 都會影響最後分類的判斷標準, 除外還有母字串與子字串等等都是考量的因素, 這些都會化成距離的關係.
Q: 有沒有可能明明是某分類的文章, 因為對象過於冷僻, 所以沒算到?
A: 這次所使用的語意網路是數萬個關鍵字, 但事實上會用到個關鍵字是超過十萬到數十萬, 很肯定的一定不可能所有資料都會算到, 但對八成的常用關鍵字倒是沒問題, 但我們知道只要過於少人使用或真的過於 "專業", 就還真的算不到, 因此這語意網路一直在增加補足, 甚至每天都會增加, 但要去達到 100% 的覆蓋率是不太可能.
Q: 到底甚麼樣的關鍵字才是親子類?
A: 親子類是在這個分類最麻煩的, 因為在既有的語意網路並沒有建立親子類, 加上這部份文章都很發散, 從政治到生活, 各種分類都有可能, 所以在某種觀點是很難分類的, 但因為很多 BSP 都希望有這項分類來鼓勵親子的部落客, 所以這部份的語意網路在判斷上雖然很弱, 也希望下次會更準確.
現在先寫到這邊, 事實上語意網路分析是個很大的學問, 不是上面的 QA 就可以講完的, 但也嘗試著讓大家透過這幾個 QA 有點概念.
最後, 我上面所說的, 無法代表官方, 並不是說這是要幫誰在逃避甚麼, 因為寫程式的人不是我, 我提供的是演算法與已經在宅度計/部觀門所使用的語意網路, 而資策會原本就有既有的演算法與語意資料庫, 因此最終的程式計算是如何我現在是不知道的, 但方向應該不會差太多.
只是這篇文章是讓大家知道專業度分類的計算部份, 不是 S-Rak 的計算那一部份, 畢竟那又是一個可以寫比這篇文章更長的議題, 畢竟這次比賽用的是只是部份的 S-Rank, 加上因為比賽是不能因為有問題就可以調整改變公平性, 而未來的 S-Rank 會嘗試著解決這些問題, 但也只是等比賽過後了, 所以很多工作人員都經過這次比賽學習了不少, 但也期望做得更好.
訂閱:
張貼留言 (Atom)
熱門文章
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
有時我總對自己做的東西沒甚麼信心, 從 Plurk.tw 一直到做了很多延伸的應用, 尤其自己知道美工排版不行, 所以常找人合作, 其中一個東西就是 "噗熱浪"... 事實上 Plurk.tw 比 Plurktop 還早做, 當然我們這邊只能從發文說開始運作開...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
剛剛坐到一部相當恐怖的公車, 但不恐怖不要打我... 因為是下雨天, 所以是坐公車從淡水捷運站來回通車的日子, 很幸運的一下捷運還沒刷卡就看到紅 26 從我面前經過, 即使我身上帶著 5 公斤重的 "老四川" 鍋底, 我想只要快步走就可以趕上, 跑是不可能...
-
我們先來看結果好了.. 日期 陳水扁 馬英九 文章 2008-09-01 2.1 25.8 殘奧授旗 馬英九:提昇殘障選手地位 2008-08-31 6.5 7.6 馬英九路跑 沿途仍見「嗆馬」標語 2008-08-30 8.7 11.9 暗諷扁? ...
-
雖然我們知道, 正義是相當重要的一件事, 但是正義是有極限的, 甚至是相對的, 所以若是把正義無限的延伸的話, 那一天真的成立了世界政府, 將會有多少生命是以正義之名去抹煞的. 而這個該給予正義有一的的極限或限制就是 "不能用任何理由剝奪生命", 這應該是普世...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
的確在 8 月 8 日馬英九還沒有放出 "父親節" 未來週記談話的前兩天, 我就回台南了, 那時看著氣象預報, 在想著說這次颱風應該又是屬於南部無風無雨, 但北部大風大雨的狀況吧, 就趁 8 月 6 日晚上連夜回台南避颱風, 所以帶著大兒子回南部 "...

沒有留言:
張貼留言