2012年6月16日 星期六

關鍵字! 分類! 語意網路~~ (Semantic Web)

事實上這篇文章不是要提出甚麼新的想法, 因為這個是在宅度計 (otaku.datamning.tw) 已經實作過了, 只是這次在部落客百傑又被提出來討論而已, 主要是為了回一則噗浪的訊息, 發現不是幾句話可以講完, 所以寫成這一篇....

當然有些有趣的觀念與觀點, 因為這樣的系統也是最近 iOS 6 很火紅的 Siri 的一個基礎, 也就是語意網路的發展, 但有趣的觀點也是在於到底系統要到多完整才是能夠實用的?

不得不否認無論是 Siri 或宅度計或部落客百傑用的 Semantic Web 語意網路的資料庫與方式都不夠完整, 但在某些觀點是: "若一個系統的實用不是在於多完美, 而是在於能不能用, 有沒有價值", 因為事實上我們都很清楚真的要做到完美的語意網路, 不是幾年內完成, 雖然一定遲早會完成, 或者是現在要做的是繼續完成.

嗯, 這不是重點, 而是有人對部落客百傑的 "專業度" 這邊的判斷提出很大的置疑, 這是不否認就成熟度是不夠的, 但事實上也沒有大家所想的那麼脆弱, 畢竟這也是大家好幾年的成果之一.

而我稍微來以 Q and A 來寫下面的內容吧, 甚至有些問題是沒人提過的, 是我們一直在努力去達到我們目標的問題:

Q: 專業度的判斷是判斷文章的專業性嗎?
A: 事實上用專業度這字有點語意的問題, 因為說起來應該是分類性, 也就是例如旅遊的專業度指的是文章對旅遊這分類的投入.

Q: 一篇文章只有一個分類嗎?
A: 事實上一篇文章可能有很多分類, 甚至應該說的是比例, 在實務上可能是只要是 30% 以上是這分類的, 就足以認為是這分類, 例如一篇文章是被判斷是 40% 旅遊, 30% 美食, 20% 時尚, 10% 其他, 在實務上可能就被判斷同時為旅遊與美食, 但這次比賽是如何我並沒有那麼確定.

Q: 是不是要文章有關鍵字才行?
A: 無論如何一定須要有相對應分類的關鍵字算出來的語意網路才有可能被列為其分類, 但我們知道要去 "窮舉" 分類的關鍵字是不太可能, 甚至關鍵字嚴格說是被 "訓練" (Train) 出來的, 訓練的完整度是須要資料庫的累積, 也就是時間越久, 分析的文章越多越準.

Q: 是不是要重覆提到關鍵字才行?
A: 事實上同一個關鍵字貢獻的分數有限, 寫個三五次後再多寫幾次, 就不會對此分類有多大貢獻了, 通常反而是使用更多相對應的關鍵字更多, 才反而對此分類有較多的貢獻, 只是關鍵字越多, 相對應的密度也會降低, 若可以集中一個分類會更有效, 但你寫作的時候考慮這件事是沒甚麼必要.

Q: 是不是所有關鍵字都只有一個分類?
A: 事實上關鍵字對一個分類的貢獻因素很多, 這個關鍵字的常見度, 字串長度, 跟這個分類的關係 (Relation) 與距離 (Distance), 都會影響最後分類的判斷標準, 除外還有母字串與子字串等等都是考量的因素, 這些都會化成距離的關係.

Q: 有沒有可能明明是某分類的文章, 因為對象過於冷僻, 所以沒算到?
A: 這次所使用的語意網路是數萬個關鍵字, 但事實上會用到個關鍵字是超過十萬到數十萬, 很肯定的一定不可能所有資料都會算到, 但對八成的常用關鍵字倒是沒問題, 但我們知道只要過於少人使用或真的過於 "專業", 就還真的算不到, 因此這語意網路一直在增加補足, 甚至每天都會增加, 但要去達到 100% 的覆蓋率是不太可能.

Q: 到底甚麼樣的關鍵字才是親子類?
A: 親子類是在這個分類最麻煩的, 因為在既有的語意網路並沒有建立親子類, 加上這部份文章都很發散, 從政治到生活, 各種分類都有可能, 所以在某種觀點是很難分類的, 但因為很多 BSP 都希望有這項分類來鼓勵親子的部落客, 所以這部份的語意網路在判斷上雖然很弱, 也希望下次會更準確.

現在先寫到這邊, 事實上語意網路分析是個很大的學問, 不是上面的 QA 就可以講完的, 但也嘗試著讓大家透過這幾個 QA 有點概念.

最後, 我上面所說的, 無法代表官方, 並不是說這是要幫誰在逃避甚麼, 因為寫程式的人不是我, 我提供的是演算法與已經在宅度計/部觀門所使用的語意網路, 而資策會原本就有既有的演算法與語意資料庫, 因此最終的程式計算是如何我現在是不知道的, 但方向應該不會差太多.

只是這篇文章是讓大家知道專業度分類的計算部份, 不是 S-Rak 的計算那一部份, 畢竟那又是一個可以寫比這篇文章更長的議題, 畢竟這次比賽用的是只是部份的 S-Rank, 加上因為比賽是不能因為有問題就可以調整改變公平性, 而未來的 S-Rank 會嘗試著解決這些問題, 但也只是等比賽過後了, 所以很多工作人員都經過這次比賽學習了不少, 但也期望做得更好.


2012年6月11日 星期一

[網點] 五都首長大對決: 誰最受傳媒青睞, 誰最受大陸人歡迎?

有人說, 藍營的首長被大多數的傳統媒體給關愛, 而相較之下綠營受到社群的歡迎, 這命題到底是對還是不對, 從網點來看看是否可以實證出甚麼? 

網點並不是只有可以看網站而已, 事實上只是跟網站, 跟關鍵字有關, 都可以拿來觀察, 記得在五年前我也寫過類似的系統叫 "Hook", 是個以網路行為為基礎的行為調查.

當然過了五年後, 現在的成熟度更高了, 不只系統穩定度好很多, 更有迴歸, 複立葉等分析工具在手, 加上 Google Chart Tools 的加持是差很多的, 還記的當時只有很陽春的 Google Graph.

廢話不多說, 大家比較有興趣的是這系統是如何應用在民意分析的, 我們就來做個小實驗, 來檢驗五都與其他縣市首長網路行為:

大家可以到 "台灣縣市長比較頁" 來看詳細的數字, 但我們在下面的討論只聚焦在五都首長, 畢竟這個等級是差很多的:

下面這個圖是大概的狀況:



看了這個表, 我們可以看到幾點有趣的證明, 因為這已經是大家早就知道的觀點了, 只是之前沒有量化的資料證明:

1. 新聞影響力: 郝>>朱>菊>胡>>賴, 這邊看得出來郝龍斌遙遙領先, 賴清德差距很大, 朱立倫與陳菊相當接近.

2. 社群經營力: 菊>>朱>賴>郝>>胡, 這個數字若是以賽車的觀點, 可以說陳菊在是領先別人一圈到達終點, 而賴清德與朱立倫先後抵達, 而胡志強是落後別人兩圈以上.

3. 媒體偏好度: 胡>郝>>朱>>賴>菊, 胡志強跟郝龍斌都具有傳統媒體好強的偏好, 朱立倫就差強人意了, 而賴清德與陳菊感覺新聞是愛報不報的.

4. 大陸歡迎度: 胡>菊>郝>>朱>>賴, 社群表現很糟的胡志強在大陸的微博剛好是最熱門的人, 陳菊最近的西進也受到注意, 郝伯伯的兒子也是蠻有名氣的, 只是賴清德過去的話應該不會被人認出來.

除了上面四點外, 還有很多有趣的現像, 利如社群經營力很差的郝龍斌在批判性高的 Google+ 很受討論, 卓伯源在臉書還贏過兩個直轄市長, 劉政鴻不知道在噗浪是有大量的贊許還是批評? 數字無法知道原因, 只能知道結果, 但相對的, 人的智慧是可以推敲出原因的, 這些數字相較之下是可以拿來佐證的.

從這樣的數字你能觀察出甚麼呢?

2012年6月10日 星期日

從網站經營來看 SEO 工夫的比較

網點 (網站完全評點) 的目的不是單純的從資料探勘 Data Mining 來看搜尋引擎最佳化 (Search Engine Optimization), 因為要了解自己網站的狀況, 除了像 Google Analytics 或 Webmaster Tools 之外, 須要使用的工具還很多, 有些是要自己做, 有些要參考的資料不只是自己而已, 甚至有些要以各種面相去觀察.

所以除了搜集資料, 儲存資料的歷史外, 更重要的是要用甚麼方式去呈現, 畢竟資料最後是要給人去了解的, 而了解的容易與否取決於資料呈現 (Data Presentation) 的好壞, 只是說到這個 Data Presentation 是我的弱項, 雖然如此我還是努力去試試看.

在之前的一篇 "從數字的歷史來看網站經營, 網點: 網站完全評點", 提到 Data Cleaning & Correcting 之後用簡單的圖表來呈現, 其中用的是 Google Chart Tools 的折線圖, 而 Google Chart Tools 也有一個 Table 的工具, 所以在數字比較的表格, 我也嘗試著用 Google Chart Tools 來畫.

比較有趣的是這個 Javascript 的 Table 可以按照自己的觀點來排序, 因此可以觀察的出那一個數字, 或那個比例值對排行榜影響比較大, 只是要比較的話, 當然是以相同關鍵字但的不同網站來觀察, 所以我做了一個這樣的網頁, 例如大家可以看兵家必爭的 "購物網站" 的狀況:



這個是以購物這個關鍵字來看這幾個 EC 網站的各項數字的表現, 若在這邊看不到, 大家可以直接去看看.

從這邊大家可以看得出來, 連結數是很重要的關鍵, 當然那四項比例中, 專注度與標題比對排名的影響較大, 尤其是專注度, 相較收錄數分數等等的單一數值來看相對重要, 但這個往往是個很麻煩的問題, 基本上網站收錄數越多, 比例也會降低, 但也代表的內容的專注度要靠更多的內容.

就像是我在 Facebook 上面有說到, "畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗連結的 "錨定文字" 吧.", 內容最後還是重點阿.

只是這些都是種說法, 若你想要多了解的話,可以自己輸入自己的網站以及跟你競爭網站的網址, 只要是用相同關鍵字建立, 都可以在 "關鍵字比較" 網頁看到這個表格, 然後可以多多觀察與實作, 畢竟我都常說, 要真的了解網站與 SEO, 須要多年的經驗, 其中包括唸書與實作, 這樣才能真的提升自己的能力, 想靠黑帽 (只靠行銷而不管內容) 的方式來操作, 雖然我也無法阻止, 只是我這邊也幫不了忙.

2012年6月8日 星期五

網點: inanchor 與 inurl 對 SEO 的效用為何?

在開始寫這篇之前, 先弄個小 box 讓大家回顧之前有關 網站完全評點 (原SEO鑑價系統) 的文章:

對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I)
內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II)
你找的 SEO 公司真的有成效嗎? (SEO 鑑價系統的初探 III)
從部落格觀察的失敗來看 Crawler 的設計 (SEO 鑑價系統的初探 IV)
SEO 評價的四面相 (SEO 鑑價系統的初探 V)

除此之外, 也寫過兩篇文章:

從關鍵字使用量看社群使用量, 台灣對臉書的依賴過高?
從數字的歷史來看網站經營, 網點: 網站完全評點

這幾篇文章可以說是我對 SEO 中的稽核部份的數字觀點的小結與再出發, 而說到再出發也包含了一些新的實驗與實作, 其中最近做了一個相當有趣的實驗, 就是利用 Google 的搜尋結果來做 "語意網路" 的延伸, 這是相當有趣的, 例如


觀光這個字來計算, 可以算出下面兩種面向的延伸:
延伸關鍵字 : 觀光巴士 糖廠 旅遊網 黃健庭 旅遊資訊 王乾發 旅遊 酒廠 李朝卿 台灣旅遊  
被關連 : 公車 旅遊網 糖廠 旅遊資訊 交通 軍人

而用馬英九來計算, 結果是: 
延伸關鍵字 : 總統 胡志強 黃敏惠 陳水扁 王乾發 蘇貞昌 總統府 謝長廷 傅崐萁 證所稅  
被關連 : 瘦肉精 蘇貞昌 林書豪 國民黨 陳水扁 總統府 證所稅 總統

大家有興趣可以自己點進去看, 例如 瘦肉精 可以延伸出甚麼?

這就是一個有趣的 Data Mining/Text Mining (文字探勘) 的小實驗, 以這系統自己本身已有的關鍵字資料來做延展, 這對幫助使用者操作, 提高內部連結, 加強關鍵字強度, 增加內容性等等都很有幫助, 這也是我在很多公開場合講過但還沒寫出來過的不算密技的密技, 因為這個是大家都知道, 但實作出來卻須要很多背景知識與經驗.

上面這個本該是獨立出一篇文章, 但可以寫的東西太多, 反而沒有時間完成, 在這邊就小提一下, 但在這次的實驗中, 是增加 inanchor 與 inurl 的觀察.

我在有次回答 ET Blue 有關 SEO 的時候, 有說到一點 SEO 重要依序:
 

1. 網域名 Domain Name
2. URL
3. 標題 Title
4. Head 的 Tag
5. 其他 Logical Tag 
6. Alt, Desc 等符合 "無障礙" 的 Tag
.....
N. 關鍵字密度 Keyword Density
.....
M+N. Meta Data
....


這篇內容寫在 最重要但也最沒用的 SEO 心法裏面, 大家可以去看, 只是網點站好像沒有針對 URL 下去做, 尤其是在外部連結的 "錨定文字" 下工夫, 雖然這些在 Google 上面都有資料, 但這也是最麻煩的.

記得有一次老貓問到我說, 為甚麼 Google 能夠在這麼短的時間內算出這個字有出現 12600000 次, 這是多可怕的計算量阿! 但我回答說, 事實上這是個推估, 因此只有 3 個有效位數, 並不是真的去從頭到尾算一次.

但也因為是推估的關係, 所以常常會有數字相當大的跳動, 這跳動不是只有 10%~30% 的跳動, 而是數十倍到百倍的跳動, 例如右表就是逐日去取樣 Google 對 SEO 這關鍵字的推估數字, 而 Google 已經是這樣子了, Bing 更是慘不忍睹阿... 所以說, 在資料探勘中, 要面對的一個大挑戰不是 Crawling 抓取而已, 而是這種二次資料, 須要很大的工夫去做 Data Cleaning and Correcting, 資料乾淨與正確化, 這部份我花了一個月才弄出好的演算法來畫出上次大家看到的網站成長圖, 不然會是個到處跳動的轉折無法判斷的圖.

而 inanchor 與 inurl 為甚麼之前都沒有在計算, 因為這個誤差跟跳動比連結更可怕, 畢竟在這種 Big Data 的資料處理大多是有用 Cache 快取的機制, 若是很少人會查詢或第一次查詢時誤差會相當的大, 相對的若是常用的話就會比較準確, 而這部份的 Data Cleaning 是比可怕還要可怕.

而外部連結與錨定文字之重要性不說大家也知道, 在 Webmaster Tools 中, 不只是對 Crawler 抓到的內容做分析, 其中也把外部連結之錨定文字也列出一個章節, 只是外部連結的錨定文字我們無法去改變, 但網站內部的錨定文字總是可以下工夫努力的吧?

只是這部份 Webmaster Tools 也是沒有 History 歷史分析與成長, 幸好有 "網點" 站, 所以現在可以放心大膽的去來抓資料要驗證計算, 以及幫忙作歷史, 畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗外部連結的 "錨定文字" 吧.

所以, 等過幾個星期累積到足夠的資料我們再來好好評點吧.

備註: 錨定文字指的是 HTML Tag 中 <a href=網址>文字</a> 中的文字, 因為 a 是 Anchor, 所以稱為錨定文字或錨文字.

熱門文章