2012年6月16日 星期六

關鍵字! 分類! 語意網路~~ (Semantic Web)

事實上這篇文章不是要提出甚麼新的想法, 因為這個是在宅度計 (otaku.datamning.tw) 已經實作過了, 只是這次在部落客百傑又被提出來討論而已, 主要是為了回一則噗浪的訊息, 發現不是幾句話可以講完, 所以寫成這一篇....

當然有些有趣的觀念與觀點, 因為這樣的系統也是最近 iOS 6 很火紅的 Siri 的一個基礎, 也就是語意網路的發展, 但有趣的觀點也是在於到底系統要到多完整才是能夠實用的?

不得不否認無論是 Siri 或宅度計或部落客百傑用的 Semantic Web 語意網路的資料庫與方式都不夠完整, 但在某些觀點是: "若一個系統的實用不是在於多完美, 而是在於能不能用, 有沒有價值", 因為事實上我們都很清楚真的要做到完美的語意網路, 不是幾年內完成, 雖然一定遲早會完成, 或者是現在要做的是繼續完成.

嗯, 這不是重點, 而是有人對部落客百傑的 "專業度" 這邊的判斷提出很大的置疑, 這是不否認就成熟度是不夠的, 但事實上也沒有大家所想的那麼脆弱, 畢竟這也是大家好幾年的成果之一.

而我稍微來以 Q and A 來寫下面的內容吧, 甚至有些問題是沒人提過的, 是我們一直在努力去達到我們目標的問題:

Q: 專業度的判斷是判斷文章的專業性嗎?
A: 事實上用專業度這字有點語意的問題, 因為說起來應該是分類性, 也就是例如旅遊的專業度指的是文章對旅遊這分類的投入.

Q: 一篇文章只有一個分類嗎?
A: 事實上一篇文章可能有很多分類, 甚至應該說的是比例, 在實務上可能是只要是 30% 以上是這分類的, 就足以認為是這分類, 例如一篇文章是被判斷是 40% 旅遊, 30% 美食, 20% 時尚, 10% 其他, 在實務上可能就被判斷同時為旅遊與美食, 但這次比賽是如何我並沒有那麼確定.

Q: 是不是要文章有關鍵字才行?
A: 無論如何一定須要有相對應分類的關鍵字算出來的語意網路才有可能被列為其分類, 但我們知道要去 "窮舉" 分類的關鍵字是不太可能, 甚至關鍵字嚴格說是被 "訓練" (Train) 出來的, 訓練的完整度是須要資料庫的累積, 也就是時間越久, 分析的文章越多越準.

Q: 是不是要重覆提到關鍵字才行?
A: 事實上同一個關鍵字貢獻的分數有限, 寫個三五次後再多寫幾次, 就不會對此分類有多大貢獻了, 通常反而是使用更多相對應的關鍵字更多, 才反而對此分類有較多的貢獻, 只是關鍵字越多, 相對應的密度也會降低, 若可以集中一個分類會更有效, 但你寫作的時候考慮這件事是沒甚麼必要.

Q: 是不是所有關鍵字都只有一個分類?
A: 事實上關鍵字對一個分類的貢獻因素很多, 這個關鍵字的常見度, 字串長度, 跟這個分類的關係 (Relation) 與距離 (Distance), 都會影響最後分類的判斷標準, 除外還有母字串與子字串等等都是考量的因素, 這些都會化成距離的關係.

Q: 有沒有可能明明是某分類的文章, 因為對象過於冷僻, 所以沒算到?
A: 這次所使用的語意網路是數萬個關鍵字, 但事實上會用到個關鍵字是超過十萬到數十萬, 很肯定的一定不可能所有資料都會算到, 但對八成的常用關鍵字倒是沒問題, 但我們知道只要過於少人使用或真的過於 "專業", 就還真的算不到, 因此這語意網路一直在增加補足, 甚至每天都會增加, 但要去達到 100% 的覆蓋率是不太可能.

Q: 到底甚麼樣的關鍵字才是親子類?
A: 親子類是在這個分類最麻煩的, 因為在既有的語意網路並沒有建立親子類, 加上這部份文章都很發散, 從政治到生活, 各種分類都有可能, 所以在某種觀點是很難分類的, 但因為很多 BSP 都希望有這項分類來鼓勵親子的部落客, 所以這部份的語意網路在判斷上雖然很弱, 也希望下次會更準確.

現在先寫到這邊, 事實上語意網路分析是個很大的學問, 不是上面的 QA 就可以講完的, 但也嘗試著讓大家透過這幾個 QA 有點概念.

最後, 我上面所說的, 無法代表官方, 並不是說這是要幫誰在逃避甚麼, 因為寫程式的人不是我, 我提供的是演算法與已經在宅度計/部觀門所使用的語意網路, 而資策會原本就有既有的演算法與語意資料庫, 因此最終的程式計算是如何我現在是不知道的, 但方向應該不會差太多.

只是這篇文章是讓大家知道專業度分類的計算部份, 不是 S-Rak 的計算那一部份, 畢竟那又是一個可以寫比這篇文章更長的議題, 畢竟這次比賽用的是只是部份的 S-Rank, 加上因為比賽是不能因為有問題就可以調整改變公平性, 而未來的 S-Rank 會嘗試著解決這些問題, 但也只是等比賽過後了, 所以很多工作人員都經過這次比賽學習了不少, 但也期望做得更好.


2012年6月11日 星期一

[網點] 五都首長大對決: 誰最受傳媒青睞, 誰最受大陸人歡迎?

有人說, 藍營的首長被大多數的傳統媒體給關愛, 而相較之下綠營受到社群的歡迎, 這命題到底是對還是不對, 從網點來看看是否可以實證出甚麼? 

網點並不是只有可以看網站而已, 事實上只是跟網站, 跟關鍵字有關, 都可以拿來觀察, 記得在五年前我也寫過類似的系統叫 "Hook", 是個以網路行為為基礎的行為調查.

當然過了五年後, 現在的成熟度更高了, 不只系統穩定度好很多, 更有迴歸, 複立葉等分析工具在手, 加上 Google Chart Tools 的加持是差很多的, 還記的當時只有很陽春的 Google Graph.

廢話不多說, 大家比較有興趣的是這系統是如何應用在民意分析的, 我們就來做個小實驗, 來檢驗五都與其他縣市首長網路行為:

大家可以到 "台灣縣市長比較頁" 來看詳細的數字, 但我們在下面的討論只聚焦在五都首長, 畢竟這個等級是差很多的:

下面這個圖是大概的狀況:



看了這個表, 我們可以看到幾點有趣的證明, 因為這已經是大家早就知道的觀點了, 只是之前沒有量化的資料證明:

1. 新聞影響力: 郝>>朱>菊>胡>>賴, 這邊看得出來郝龍斌遙遙領先, 賴清德差距很大, 朱立倫與陳菊相當接近.

2. 社群經營力: 菊>>朱>賴>郝>>胡, 這個數字若是以賽車的觀點, 可以說陳菊在是領先別人一圈到達終點, 而賴清德與朱立倫先後抵達, 而胡志強是落後別人兩圈以上.

3. 媒體偏好度: 胡>郝>>朱>>賴>菊, 胡志強跟郝龍斌都具有傳統媒體好強的偏好, 朱立倫就差強人意了, 而賴清德與陳菊感覺新聞是愛報不報的.

4. 大陸歡迎度: 胡>菊>郝>>朱>>賴, 社群表現很糟的胡志強在大陸的微博剛好是最熱門的人, 陳菊最近的西進也受到注意, 郝伯伯的兒子也是蠻有名氣的, 只是賴清德過去的話應該不會被人認出來.

除了上面四點外, 還有很多有趣的現像, 利如社群經營力很差的郝龍斌在批判性高的 Google+ 很受討論, 卓伯源在臉書還贏過兩個直轄市長, 劉政鴻不知道在噗浪是有大量的贊許還是批評? 數字無法知道原因, 只能知道結果, 但相對的, 人的智慧是可以推敲出原因的, 這些數字相較之下是可以拿來佐證的.

從這樣的數字你能觀察出甚麼呢?

2012年6月10日 星期日

從網站經營來看 SEO 工夫的比較

網點 (網站完全評點) 的目的不是單純的從資料探勘 Data Mining 來看搜尋引擎最佳化 (Search Engine Optimization), 因為要了解自己網站的狀況, 除了像 Google Analytics 或 Webmaster Tools 之外, 須要使用的工具還很多, 有些是要自己做, 有些要參考的資料不只是自己而已, 甚至有些要以各種面相去觀察.

所以除了搜集資料, 儲存資料的歷史外, 更重要的是要用甚麼方式去呈現, 畢竟資料最後是要給人去了解的, 而了解的容易與否取決於資料呈現 (Data Presentation) 的好壞, 只是說到這個 Data Presentation 是我的弱項, 雖然如此我還是努力去試試看.

在之前的一篇 "從數字的歷史來看網站經營, 網點: 網站完全評點", 提到 Data Cleaning & Correcting 之後用簡單的圖表來呈現, 其中用的是 Google Chart Tools 的折線圖, 而 Google Chart Tools 也有一個 Table 的工具, 所以在數字比較的表格, 我也嘗試著用 Google Chart Tools 來畫.

比較有趣的是這個 Javascript 的 Table 可以按照自己的觀點來排序, 因此可以觀察的出那一個數字, 或那個比例值對排行榜影響比較大, 只是要比較的話, 當然是以相同關鍵字但的不同網站來觀察, 所以我做了一個這樣的網頁, 例如大家可以看兵家必爭的 "購物網站" 的狀況:



這個是以購物這個關鍵字來看這幾個 EC 網站的各項數字的表現, 若在這邊看不到, 大家可以直接去看看.

從這邊大家可以看得出來, 連結數是很重要的關鍵, 當然那四項比例中, 專注度與標題比對排名的影響較大, 尤其是專注度, 相較收錄數分數等等的單一數值來看相對重要, 但這個往往是個很麻煩的問題, 基本上網站收錄數越多, 比例也會降低, 但也代表的內容的專注度要靠更多的內容.

就像是我在 Facebook 上面有說到, "畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗連結的 "錨定文字" 吧.", 內容最後還是重點阿.

只是這些都是種說法, 若你想要多了解的話,可以自己輸入自己的網站以及跟你競爭網站的網址, 只要是用相同關鍵字建立, 都可以在 "關鍵字比較" 網頁看到這個表格, 然後可以多多觀察與實作, 畢竟我都常說, 要真的了解網站與 SEO, 須要多年的經驗, 其中包括唸書與實作, 這樣才能真的提升自己的能力, 想靠黑帽 (只靠行銷而不管內容) 的方式來操作, 雖然我也無法阻止, 只是我這邊也幫不了忙.

2012年6月8日 星期五

網點: inanchor 與 inurl 對 SEO 的效用為何?

在開始寫這篇之前, 先弄個小 box 讓大家回顧之前有關 網站完全評點 (原SEO鑑價系統) 的文章:

對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I)
內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II)
你找的 SEO 公司真的有成效嗎? (SEO 鑑價系統的初探 III)
從部落格觀察的失敗來看 Crawler 的設計 (SEO 鑑價系統的初探 IV)
SEO 評價的四面相 (SEO 鑑價系統的初探 V)

除此之外, 也寫過兩篇文章:

從關鍵字使用量看社群使用量, 台灣對臉書的依賴過高?
從數字的歷史來看網站經營, 網點: 網站完全評點

這幾篇文章可以說是我對 SEO 中的稽核部份的數字觀點的小結與再出發, 而說到再出發也包含了一些新的實驗與實作, 其中最近做了一個相當有趣的實驗, 就是利用 Google 的搜尋結果來做 "語意網路" 的延伸, 這是相當有趣的, 例如


觀光這個字來計算, 可以算出下面兩種面向的延伸:
延伸關鍵字 : 觀光巴士 糖廠 旅遊網 黃健庭 旅遊資訊 王乾發 旅遊 酒廠 李朝卿 台灣旅遊  
被關連 : 公車 旅遊網 糖廠 旅遊資訊 交通 軍人

而用馬英九來計算, 結果是: 
延伸關鍵字 : 總統 胡志強 黃敏惠 陳水扁 王乾發 蘇貞昌 總統府 謝長廷 傅崐萁 證所稅  
被關連 : 瘦肉精 蘇貞昌 林書豪 國民黨 陳水扁 總統府 證所稅 總統

大家有興趣可以自己點進去看, 例如 瘦肉精 可以延伸出甚麼?

這就是一個有趣的 Data Mining/Text Mining (文字探勘) 的小實驗, 以這系統自己本身已有的關鍵字資料來做延展, 這對幫助使用者操作, 提高內部連結, 加強關鍵字強度, 增加內容性等等都很有幫助, 這也是我在很多公開場合講過但還沒寫出來過的不算密技的密技, 因為這個是大家都知道, 但實作出來卻須要很多背景知識與經驗.

上面這個本該是獨立出一篇文章, 但可以寫的東西太多, 反而沒有時間完成, 在這邊就小提一下, 但在這次的實驗中, 是增加 inanchor 與 inurl 的觀察.

我在有次回答 ET Blue 有關 SEO 的時候, 有說到一點 SEO 重要依序:
 

1. 網域名 Domain Name
2. URL
3. 標題 Title
4. Head 的 Tag
5. 其他 Logical Tag 
6. Alt, Desc 等符合 "無障礙" 的 Tag
.....
N. 關鍵字密度 Keyword Density
.....
M+N. Meta Data
....


這篇內容寫在 最重要但也最沒用的 SEO 心法裏面, 大家可以去看, 只是網點站好像沒有針對 URL 下去做, 尤其是在外部連結的 "錨定文字" 下工夫, 雖然這些在 Google 上面都有資料, 但這也是最麻煩的.

記得有一次老貓問到我說, 為甚麼 Google 能夠在這麼短的時間內算出這個字有出現 12600000 次, 這是多可怕的計算量阿! 但我回答說, 事實上這是個推估, 因此只有 3 個有效位數, 並不是真的去從頭到尾算一次.

但也因為是推估的關係, 所以常常會有數字相當大的跳動, 這跳動不是只有 10%~30% 的跳動, 而是數十倍到百倍的跳動, 例如右表就是逐日去取樣 Google 對 SEO 這關鍵字的推估數字, 而 Google 已經是這樣子了, Bing 更是慘不忍睹阿... 所以說, 在資料探勘中, 要面對的一個大挑戰不是 Crawling 抓取而已, 而是這種二次資料, 須要很大的工夫去做 Data Cleaning and Correcting, 資料乾淨與正確化, 這部份我花了一個月才弄出好的演算法來畫出上次大家看到的網站成長圖, 不然會是個到處跳動的轉折無法判斷的圖.

而 inanchor 與 inurl 為甚麼之前都沒有在計算, 因為這個誤差跟跳動比連結更可怕, 畢竟在這種 Big Data 的資料處理大多是有用 Cache 快取的機制, 若是很少人會查詢或第一次查詢時誤差會相當的大, 相對的若是常用的話就會比較準確, 而這部份的 Data Cleaning 是比可怕還要可怕.

而外部連結與錨定文字之重要性不說大家也知道, 在 Webmaster Tools 中, 不只是對 Crawler 抓到的內容做分析, 其中也把外部連結之錨定文字也列出一個章節, 只是外部連結的錨定文字我們無法去改變, 但網站內部的錨定文字總是可以下工夫努力的吧?

只是這部份 Webmaster Tools 也是沒有 History 歷史分析與成長, 幸好有 "網點" 站, 所以現在可以放心大膽的去來抓資料要驗證計算, 以及幫忙作歷史, 畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗外部連結的 "錨定文字" 吧.

所以, 等過幾個星期累積到足夠的資料我們再來好好評點吧.

備註: 錨定文字指的是 HTML Tag 中 <a href=網址>文字</a> 中的文字, 因為 a 是 Anchor, 所以稱為錨定文字或錨文字.

2012年5月22日 星期二

從數字的歷史來看網站經營, 網點: 網站完全評點

沒有足夠資訊所做的判斷, 只是又再次增加錯誤的決策罷了.... 

楊威利, 前十三艦隊軍團長

我們都知道要看一個網站經營, 最直接的就是看使用量或業績/利潤, 但這些只是最後的結果, 要知道如何改善, 還是須要很多細節去發現如何做, 網點就是因為這樣做出來的網站.

這網站原本預計是在 4/1 公開的, 但一拖就拖過馬總統還是就職過後, 只是到現在這個網站還是沒有美化, 但至少有一個 Visualization 視覺化的圖表後, 就匆忙公開了....

在之前很多人知道這網站是從 Data Mining 資料探勘的角度來看 Search Engine Optimization (SEO) 的這個企劃, 但想想我個人實際上跟本不喜歡 SEO 這東西, 而再做一個 SEO 網站不是很好笑嗎? 所以窮則變, 變則通, 最後 SEO 變成 Site Examination Over, 也就是網站完全評點, 簡稱 "網點", 這樣就不會太無趣了吧...

但從 2 月底做到現在, 資料都搜集快三個月了, 很多資料量的確大到可以視覺化了, 其中最重要的就是這網站真正的初衷: "幫網站做成長的歷史".

以我偏頗角度的思維來看, 觀察數字須要做到幾點:

1. 自動化: 能夠不透過人的方式主動, 客觀的抓到資料.
2. 即時性: 隨時盡量呈現最新的資料.
3. 歷史: 從時間軸知道事情的變化.
4. 標準化/指數化: 無論是 Normalization 或 Indexing, 降冪達到一個可以比較的基準.
5. 大量資料: 要有足夠的 Entropy (熵) 才能夠獲得有用的結果.

但上面者五點, 很多人都有做到, 但很多人都會忽略一點, 且也最麻煩的是 "歷史", 畢竟很多人在處理資料的時候, 都沒有考慮到時間序列 (Time Series) 的資料處理方式, 就像是我常以網路管理角度的出發來舉例: "CPU 負荷 80% 不算高, CPU 負荷 5% 不算低, 因為要跟之前做比較".

網點站抓的資料相當大量, 有從關鍵字角度出發, 也有從網站角度出發, 上次有說到從關鍵字在各個社群網站的表現來推估使用者在 SNS 內容產出量的比例, 這就是一種二次資料的應用, 而這次也從 Google/Bing/Yahoo 等搜尋引擎來看網站的表現, 雖然也是種二次資料, 也就是絕對沒有網站真正經營者資料來得更完整, 但我知道大部份的網站經營者都沒考慮 "時間" 與 "比較".

因此網點就以這兩個角度做出發, 幫大家從 Search Engine 的觀點來看自己網站的成長史, 以及跟他人做比較, 只是現在寫出來的是成長史, 比較部份可能要晚一點完成.

下圖就是這個部落格 (黑貘來說) 的成長歷史圖表:



這歷史有兩部份, 一部份是網頁收錄數, 以及最新的外部連結, 這兩部份無論對內容經營者, 或社群行銷者都是很重要的資訊, 雖然這些資料沒有每天的 Log Analysis 準確, 但又的確是可以反應出一種經營成果的 KPI.

當然這系統是開放的, 也就是說大家都可以自己輸入自己查, 但像外部連結收錄史這比較會花資源的, 可能就是以 Coffee Service 的方式來運作, 只是比較討厭的事是像這樣漂亮的圖表, 可能須要輸入後過幾個星期才會比較好看, 也就是當已經抓了上千筆資料後, 在 Presentation/Visualization 呈現與視覺才有足夠的 "空間" 來美化, 相較資料不夠還畫不出甚麼有意義的圖表.

這邊的外部連結是以 Google Crawler 呈現在 Search Engine Result Pages 為主, 若你自己去看 Webmaster Tools 數字一定會比這邊多, 且更有時效性, 但通常這邊的資料往往也是最會直接影響 SERP, 所以相當重要, 因為外部連結是社群行銷經營最有義的成果. 再過幾天, 也會針對這部份做分析, 包含以網站為單位的分析都有可能.

網站經營的層面真的太多, 我之前還寫過網站經營的 13 層面, 比 ISO 的 OSI 七層還要多, 這也表示經營網站要看的資訊真的很多, 只是要如何系統化的去了解, 這個評點只是眾多工具的一個, 但也是蠻重要的一個.

Anyway, 若大家有興去, 就去 網點: 網站完全評點 看看吧..

2012年5月8日 星期二

The New 部落客百傑 社群力指標 的一些設計想法

這次參與資策會的社群力指標, 在前一篇的講部落客百傑的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的價值.

先不談一個更重要的命題, 也是大家在疑問的: "明明是部落客, 為甚麼要看其社群經營", 尤其這命題跟我平常講的: "內容是最重要也是最基礎的價值" 不是相違背嗎? 但這個問題可能不是寫兩三篇就講的完的, 且我知道也有很多人都知道也都會寫, 所以當我看完大家的回應我再來補充.

這篇是來講些數學課, 以及數學之外的 "限制".

雖然這次社群力是我提出這構想以及規劃的, 但不是由我一個人決定的, 甚至我知道其中有一個同事所做的 "價構完成" 貢獻比我大很多 (若他願意曝光我會加連結), 更重要的這次計算的程式設計我都沒下去寫, 因為我最近都只用 PHP 與 Python/C 阿.

當然知道我 "惡趣味" 的人都知道我對 "綜合指標" 有一定的偏好, 這次的社群力也是種標準的綜合指標, 尤其是我知道當 Klout 做出來後, 要做得比他好, 或者是只在台灣做雖然不須要上億的資金, 但也不是那麼簡單, 尤其是這種綜合指標的困難不只是在公式, 而是在抓取的功夫, 所以若沒有創研所這樣的人力資源, 還真的做不出來.

因此在很邏輯的定義出社群力的四面向後, 接下來的討論是下面幾個:

1. 目前在這次的部落客百傑能夠完成多少數值的計算?
2. 以目前的資源能夠承擔多少的附和?

基本上這專案當然不可能有 Klout 等級的資金與資源, 甚至應該說在這樣有限的資源與人力要如何達成這樣的任務與挑戰就變成最大的 "限制".

除此之外, 雖然這社群力指標雖然在未來是一個 "持續性的服務", 但現在要實作的是 "階段性的部落客百傑", 因此在這段時間內又會有兩個限制:

1. 這段時間內盡量不要改變演算法去影響比賽的一致性.
2. 已經對外說明這個分數在這段時間是累積不會降低的.

在了解這樣的限制後, 我們在設計一個指標通常要避免一些事情.

1. 要讓每一筆資料都能夠具有判別力, 或者說有意義.
2. 不能讓一筆資料有太大的決斷, 也就是不能只靠他就可以決定.

因此綜合指標通常設計一定不是算數平均, 一定是幾何平均或調和平均之類的, 不然也會將數字做尺度與次序的轉換, 就像是部落格觀察都是以排名為基礎的原因, 但最好的方式可能是做 "Distribution Normalization", 也就是依分布來標準化.

事實上原本希望這次不要用次序轉化, 而是要做分佈標準化, 但這方法的變動性相當高, 不只分數會跳動, 甚至會下降具有不穩定, 造成給大家有不一致性的感覺, 因此用了最有趣的計算就是對最高值做限制, 避免一個分數因為過大造成整個指數被這個分數來決斷判定, 尤其是 "人氣" 這個數字即使取了對數, 但大家的差別還是會相當大, 所以做了一個有上限最大值的 "區間" 轉換.

這個社群力指數就是由四項 0 分到 25 分加總起來的, 因此最高不可能超過 100 分, 這也是因此看得出有上限的設計, 雖然現在不少人看到人氣值偏高, 專業度都偏低, 但在整體而言由於上限的設計, 反而讓專業度的決斷力增加, 人氣值的影響力反而不是那麼跟大家所想的那麼重要, 但也不代表這數值不重要, 也一樣重要.

雖然現在大家對這機制最大的質疑不只是計算方式, 而是更新沒有那麼即時甚至會抓錯或抓不到的狀況, 或者是判別類別的問題, 這部份才是最大的挑戰, 若這是我自己一個人做的話, 我雖然會做到即時, 但一定會避免這件事, 畢竟這要花的工夫以及解決的困難度是相當高的, 甚至這套系統可以說是由 10~20 人去完成其架構的, 無論要去統合與完成, 都沒那麼簡單.

這些其他部份就以後再說, 因為我知道很多人看到這邊已經頭昏眼花了.

2012年5月3日 星期四

Google+ 專頁的藝人策略 (Google Plus Page)

最近在 Google + 專頁最被討論到的大概就是 五月天的 Official+ 的風潮, 這風潮帶動了整個 G+ 增加一半的氣勢, 只是這氣勢只是從占有率 0.4% 升到 0.8%, 這個比例可以從前一陣子做的網點站看得出來.

五月天的專頁不只取代重灌狂人成為理論上台灣最多 Followed 的專頁, 且一口氣破 2 萬人, 甚至 3 萬人應該不用再幾天就可以做到, 若猜得沒錯的話, 羅志祥的專頁今天也可以破 1 萬人,  因此台灣就有 3 個破萬的 G+ 粉絲專頁了.

記的在 Google Plus Page 出來時, 重灌狂人的高人氣可以在全球排到前 200 名, 那時第一名最高是 Android 的 23 萬, 前 10 名中有 7 個是科技相關, 甚至有 6 個是 Google 自家產品的粉絲專頁, 而在去年年底在 G+圈圈報 時說的:


當相較一下 Twitter, 最高的是 Lady Gaga, 有 170 萬人了, 而 Britney 在 Twitter 則是排第五名, 只是這些數字相較 Facebook 真的都少太多了.. 
Facebook 單單破 100 萬的粉絲數的就有 153 個, 就個人而言最高的是 Eminen (第三名, 前兩名是 Facebook 與 Texas Holdem Poker) 就有 49,894,630 快 500 萬, Lady Gaga 還輸 Rihanna...

那時粉絲專頁是一個破百萬的也沒有, 而在剛剛看到有人提到另類的台灣最高的被追蹤者是 Li Ann 黎安, 現在早已經破百萬追蹤了, 在全球排名是 115 名, 此時已經有 149 個人破百萬了, 當然成長的也不只是 Google+, Facebook 也已經有 826 人破百萬了, 所以現在已經是 163 vs 826, 跟當時的 1:150 現在已經追到 1:5 了.

右上圖是現在最高的幾個粉絲專頁, 看得出來, 已經沒有科技產品了, 當時第一名的 Android 變成 42 名, 現在前 10 名 不是藝人, 就是體育, 遊戲跟電視節目, 以這角度來看, G+ 在美國已經慢慢擺脫只有科技人的狀況了.

只是台灣只因為五月天跟羅志祥的關係, 前 10 名剩 8 個是科技與宅宅的專頁, 跟去年時並沒有多大的改變, 畢竟目前 G+ 在台灣還是利用幾個藝人來做點的突破, 若再持續操作下去, 就覆蓋率而言並沒有多大幫助, 因為再怎洗的還是這個族群.

事實上這樣的藝人策略是對的, 只是應該可以從美國的方向來借鏡, 的確藝人是最好操作且最有效, 但更應該的是從更多角度來出發, 雖然說羅志祥不算成功但五月天是好的案例, 但再操作下去意義並不高, 要結合的是電視節目, 像最近巧克力情人就很有心操作 G+, 但好像 Google 並沒有著力太多?

雖然說目前台灣臉書還是較為聊天及鎖事, G+ 還是比較多的討論, 但說真的, 一個 80%, 一個 0.8%, 差了 100 倍的 Pool 我想任何公關公司也知道要如何操作, 但相對而言一個是紅海一個是藍海, 在這邊是一個重新出發的競技場, 在某方面先進入者還是有很大的優勢的, 就看要如何想了.

2012年4月26日 星期四

台灣有多少獨立(思考/寫作)的科技(網站/部落格)呢?

雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了.

這篇文章我早在去年 11 月時就想寫了, 雖然這議題早在更之前也很多人討論過了, 而我原本的確是有些小感觸, 因為當親眼目睹 Engadget Chinese 與 癮科技 分家後, 這兩個部落格的走向更証實我的想法, 但真正的原因是在那時我自己跳下來寫 G+圈圈報 的關係, 只是真正沒寫的原因是我鄉愿的個性, 簡而言之就是沒有 Guts/膽識, 所以就沒寫了, ...

可是今天為甚麼想寫呢? 是因為一個較有 Guts 的人 (pHo) 已經寫了大部份了, 就是 台灣新媒體素質落後,拖累網路產業競爭力 這篇, 很明鮮的我沒有 pHo 那樣的個性, 我不只是那種懶得惹麻煩的人, 再加上本身是個自我感覺不好的人, 很多立論若沒有想的很完整, 我也不太敢提出來, 而今天這篇已經提出大部份我想寫的, 而我就再加註我的經驗與想法就夠了.

當然那篇文章已經點出太多事項了, 我後來為甚麼感受那麼深刻, 是因為當時的 G+圈圈報, 當時是想透過這個專頁介紹一些國外的 Google Plus Page 的想法, 因此隔一段時間就會去看看大家的討論與想法, 然後找出一個不錯的議題, 閱讀後把一些心得寫出來, 這過程要多久呢? 大約三小時到半天才能夠寫出一篇好文章, 且大部份的時候即使是參考三五篇寫出來都比任何一篇來得少, 此時回頭看那些媒體, 居然都是落落長, 原本想說他們真的很厲害~~~

事實上不然, 因為對照原文仔細一看, 他們跟本是全文翻譯, 幾乎沒有增加任何句子, 也沒有減少任何話, 所以不要說是說有經過吸收消化然後產出, 跟本是除了翻譯還是翻譯, 說是有自己的想法是不可能的, 更應該說是 100% 竊取, 因為就我所知, 他們應該是沒有經過授權, 因此在沒有是以去以介紹別人文章的觀點去下筆, 不只是完全翻譯不添加自己的想法外, 往往連聯結與完整的出處都沒有, 或者只是輕描淡寫的帶過, 跟本不希望讀者回去看原始的文章, 更誇張的是把別人的圖加上自己的浮水印, 好像宣稱這就是自己的東西...

嗯, 這不是很眼熟嗎? 是的, 這就是目前大陸的作法, 也就是 20 年前台灣的作法, 只是為甚麼現在台灣走回頭路, 是為了趕上大陸的潮流嗎? 當然大家知道這是不可能的, 而是幾乎不擇手段的增加內容去騙取流量, 基本上我是很希望大家真的創作內容, 只是這種方法跟本不是 "創作" 內容, 而跟本是 "竊取" 內容.

全文照翻是最偷懶也最不用花功夫的作法, 因為你跟本只要做翻譯機的東西, 而不是去 "創作", 更不要說是 "獨立思考", 這個是理論上台灣還能夠比大陸或印度稍微好一點的地方, 雖然不及歐美, 但不得不否認在台灣較為成熟 (雖然有點扭曲) 的教育應該是比這兩個地方好, 說要要求每一個大學生都具有 "獨立思考的人格" 可能是差很遠, 但台灣現在這樣媒體的市場跟本是在走倒車, 你不用去思考, 不用去評斷, 只要會 COPY 及 翻譯 就是個 "好的編輯人才" 嗎? 我不認為台灣是沒有這這樣的人.

我也很清楚像城X這種曾以出版為掛帥類型集團, 很多高層頭頭應該是很有 "知識份子風骨" 的, 但這樣的思維與堅持要去創造流量真的是 "Hard Way/辛苦路", 更要花不少人力與資源, 畢竟要做出這樣的內容, 須要夠有經驗的編輯, 遇到商業邏輯後, 花多少錢賺入多少錢的前提下, 這說不定是最合理的解法, 但前提也是要去用這資本家的想法去經營, 最後在沒有堅持就直接妥協, 到最後就 "同流合污", 這樣才是現況.

在 G+圈圈報 的經驗, 要以介紹別人的文章來寫出來的內容, 跟去複製別人寫出來的內容這兩種心態, 做出來的結果會是差很多的, 因此我更能看得出來, 那些網站跟本 "無心去介紹別人的文章", 而是只 "想要剽竊原創者的流量", 但也不能說台灣的科技網站都是這樣, 因為我還是看到不少原創性比例相當高的網站, 至少已經做到獨立創作了, 只是真的有沒有去獨立思考又是另一個問題.

而在之後, 我總是覺得台灣的科技網站不是很少, 而是很多, 但獨立創作的可能不到 2 成, 而這其中又能夠獨立思考的可能只有兩三個, 雖然也不是每一篇文章都做得到, 但半數能夠作得到就很夠了, ...

寫到這邊我才想起來有一次我找老貓討論這點, 而我一直都無法去說台灣缺少甚麼樣的網路媒體, 原來是這樣阿....

(雖然我文字可以原創, 但圖就借用 I, Robots 的機器人吧)

2012年4月2日 星期一

Blogger Top 100 部落客百傑 2012

在前幾次的部落格百傑我不能說我沒參與, 但幫忙的地方不多, 而今年的第五屆部落客百傑我倒是蠻積極的幫忙, 畢竟去年沒有 BOF, 部落格觀察也是半停擺, 我發現只靠我自己的熱情去趨使一些事情沒那麼簡單, 因此也是因為在幫忙資策會做 Performance Tuning 的技術顧問的同時, 讓我有機會參與這次部落客百傑.

這次部落客百傑跟去年或往年不一樣的地方:

1. 以前都是以 BSP 所提供的平台資料計算, 部落客雖然不須要報名, 但若 BSP 沒有參與等自架的部落客就無法參與.


2. 之前 Semantic Web 語意網路 Text Mining 文字探勘占一半以上的分數, 現在則是占 1/4.


3. 社群經營的表現納入計算, 也就是 Facebook, 噗浪也是部落客經營的項目之一.


4. 提供給公關單位一個以公司社群行銷的獎項, 讓大家知道部落客行銷應該如何經營與運作.


5. 加入點擊數這個最基本的衡量方式.


6. 像部落格觀察的藍眼觀注那樣加入同儕的評鑑.

這次把我之前在部觀門所建立的 Semantic Web 也應用在這次部落客百傑, 除外也把 宅度計 開發出來的演算法做為專業分類的計算方法, 因此理論上應該比往年更完善許多了.

當然我真正期望建立的, 不是只是這樣的一次性的比賽與活動, 而是把這樣衡量方式變成一個持續性的機制, 也就是這系統雖然某些因為活動性的計算會在結果產生停止, 但大部份的計算都會一直在資策會的部落客百傑持續經營.

當然有人會問未來部落格觀察會怎樣, 不是正在製作部落格觀察 2.0 嗎? 事實上應該說在未來, 部落格觀察還是會一個以輔助部落格寫作者與讀者的一套系統, 且這系統不會有人因等等靠客觀的評分來計算, 而部落客百傑會嘗試著更完整的加入一些其他可能的人因機制, 而在我的眼中是各自都有意義的, 所以也請大家來使用部落客百傑的 S-Rank, 也會有不同的觀點阿.

P.S. 忘了寫網址是 http://ibank.ideas.iii.org.tw/

2012年3月28日 星期三

3/28 這天, 正義與公權力這邊獲勝了, 人民失敗了...


雖然想要都市更新, 且沒有疑慮的地點比士林王家更多, 只是那些地方的經濟價值對財團並不是好的投資標地, 所以很多都閒置在那邊, ...

市政府這次已經充份展現對財富重分配的決心, 想要幫助這個國家的政府一口氣創造更高的貧富不均的心態是可以理解的, 而那些須要幫忙與協助的弱勢者並不說不能指望市府或政府, 只是也要了解他們的排序優先是在很後面, 這樣的衝突才不會一再上演...

畢竟建設是不能停的, 對於那些只是想要安然依自己的私心過生活的人, 碰到經濟開發, 且能夠創造更多價值的事, 尤其是增加 GNP 與降低失業率是沒有幫助的人在這個社會是沒有說話空間的, 當然公權力所站的角色當然是以 "進步" 與 "正義" 為掛帥, 並不是居安茍且.

不得不否認的是現在的政府跟人民有很大的認知差距, 尤其是政治是比較偏向精英主義者的遊戲, 這狀況是越來越大, 這情形對執政者是有利有弊的, 因為當落差越大, 雖然會有更多的衝突, 但相對的其他人民對政治的冷漠感會更增加, 因此只要能夠用對方法去鎮壓住反對者, 讓其他人能接受, 這政府更可以輕易的獨斷, 對於政治的穩定度與政權的維持是正面的.

若你想要義正言辭的說: "政府不是更應該去照顧弱勢者, 而不應該把為財團服務的優先權排這麼高", 這種想法就是認知落差的一種, 畢竟這些弱勢者真的照顧到了之後, 對政府會有幫助嗎? 不會有的, 相對的幫助財團賺錢, 政府還可以獲得一些 "回饋", 且這對 "建設" 這名詞是正面的.

所以.."好好的去適應吧" 或 "xxxxxxxx"....




這大概就是玩法律的極至之一吧... 說不定連嘴臉也很像...

Herb Myerson: I'm going to talk to you about the God damn law. We serve the law. We honor the law! And sometimes, Councelor, we obey the law. But, Councelor, this is not one of those times.

-- Intolerable Cruelty (2003)

2012年3月15日 星期四

SEO 評價的四面相 (SEO 鑑價系統的初探 V)

在 對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I) 這邊有提到 SEO 的計算要分成那四部份的面相, 是那四部份呢? 我們在這邊來做個較為深入一點點的探討.

整體而言是分成 "關鍵字本身的難度", "網站本身的體質", "此網站對這關鍵字的投入", "對手的強度" 這四部份, 我們大概就來說一下吧:

1. 關鍵字本身的難度

簡而言之就是越熱門的關鍵字越困難, 可以從 "網頁", "標題", "分類搜尋(新聞, 網誌....)", "社群(臉書, 噗浪...)", 等等的觀點去做觀察, 找到的內容數越多就代表越困難. 

除外也須要參考這關鍵字的屬性, 例如最重要的例如是 "學術類成份(edu 或 edu.tw 所占的數目)", "特殊名詞(維基是否有收錄)", 這些都是基本要觀察的.

除此之外歷史的角度包含前面部份的成長, 成長越多的表示這困難度也會越高.

2. 網站本身的體質

當然一個歷史悠久的網站, 內容豐富的網站, 自然體質(價值)就會高一些, 這包含 "網站網頁數", "PageRank", "連結數", 這些基本數值是最重要的.

除外是否有被收錄在 ODP, 是否有收錄在 Archive, 以及這個 Domain Name 的歷史等等都也是這網站的屬性, 一個網站的體質越好, 面對高難度的挑戰自然會簡單些.

3. 此網站對這關鍵字的投入

但若依照第 2 點的說法, 不是大網站就是獨大嗎? 這是錯的, 因為最重要的也是要看這網站對這關鍵字的表現, 例如這關鍵字在這網站出現的次數, 在標題出現的次數都是很重要的.

所以不是多就好, 如同在 內容關鍵字的數量 與比例 (SEO 鑑價系統的初探 II) 所說的, 除了數量外重點還是在其比例, 當然對於這關鍵字占的比例越高, 就越有利, 一個幾百頁內容對這關鍵字足夠專業的網站, 可以輕易打敗數十萬頁對此關鍵字出現比例低的大網站.

4. 對手的強度

除了要看這關鍵字本身, 以及要看自己網站, 與看自己網站對這關鍵字的投入, 更要看對手的強度, 當對手 Landing Page 的 PageRank 高, 或者是 2, 3 點的數值都很漂亮, 已經在搜尋結果已經占了先機, 當然這 SEO 的困難度隨之提升, 所須要的成本也越高.

目前已經寫的 SEO 鑑價系統中, 如 你找的 SEO 公司真的有成效嗎? (SEO 鑑價系統的初探 III) 所說的目前是包含下面 8 項數值, 範例:

關鍵字困難度 : 25.6

網站體質 : 9.1

關係 : 3.9

命中度 : 8.7

優勢 : 7.0

內容比: 0.33%%

標題比: 19.27%%

專注度: 40.95%

重視度: 6.45%


但這 8 項數值聽起來真的太複雜了, 因此在之後除了會呈現最原始的基本資料外, 這細節大概不會記錄或顯示這麼多, 可能就只會出現上面這四項數值的 1~100 的困難度, 以及最終計算的價格.

當然還是會讓大家查詢自己的努力或 SEO 公司是否真的有在認真經營.

上面說了那麼元素, 事實上還不夠完整, 甚至有些數字是外部抓不到, 例如外部連結的 Anchor Text, 錨定文字是關鍵字搜尋中很重要的角色, 而這個量是在 Webmaster Tools 看得到, 但在外面是很難抓到的, 所以若是真的要商用進階的話, 還是有很多元素可能是要有權限的人去匯入或填進去的, 只是這部份不是這網站真正要完成的, 而是可能給別人做加值時才來做的吧.

2012年3月7日 星期三

從關鍵字使用量看社群使用量, 台灣對臉書的依賴過高?

這段文本來是寫在 G+ 的, 但發現越寫越多, 寫完後還有很多想法, 所以轉到部落格完整:

原始的討論在這邊, 不想去看的話下面是原始的文章, 不包含討論: 

說是 SEO 鑑價系統, 還不如說是我對關鍵字與數字研究的惡趣味之一, 而在還沒有 Release 時, 就發現一個很有趣的現像. 

因為這個系統會去抓各個關鍵字在各個社群的表現, 也就是內容或網頁的多寡, 事實上每一個關鍵字都不太一樣, 但若整體去看的話, 若這個量夠大, 就是一個現在 SNS 的內容產生量, 在某種觀點幾乎就是社群使用量. 

而這個關鍵字有中文與英文, 我們可以當成 台灣(+香港?) 與 國外(美國?) 的差別, 跑出的數字如下 (圖):


很明鮮的看出來, 台灣幾乎是臉書獨大占 90%, 而噗浪與推特占 5%, G+ 可以幾乎不用考慮, 而英文則是臉書跟推特各占一半, G+ 的使用量比例比台灣多了一倍. 

當然這個資料在資料探勘的定義我稱為 Side Effect Data Mining, 跟真實的這四個 SNS 使用並沒有絕對的關係, 而是有相對的關係, 甚至是有更多其他因素所總合效應的結果, 因此是可以有很有趣的相關解讀. 

我倒是很有興趣之後每隔一段時間的變化為何?

的確這個數字應該是依時間變化來看來畫出圖會更有趣, 而不只是表格而已, 只是這原始數字是從搜尋引擎 (Google) 來查的, 所以這部份有一些有趣的觀點:

1. 這數字指的是有這關鍵字符合的網頁
2. 這數字是累積下來的歷史
3. 這關鍵字會跟議題在各個族群熱度有很大的相關
4. 這數字會跟 Search Engine Index 的好壞影響很有關
5. 網頁數會受到系統的影響

尤於這個是累積的資料, 就像是老貓所說的, 這既然是看社群網路 SNS, 時效性是一個很重要的東西, 所以這數字本來就應該去看時間間隔的變化才會更有意義, 這也必須累積到一定時間才能夠計算的.

而目前也在 Crawling 微博的資料, 再過一陣就會有微博的資料了, 且這是一個很有趣的題目, 所以這題目將會是 Keyword Data Mining / Text Mining 第一個以 SEO Datamining 出來的長期觀察指數.

後記: 因為有人想知道加入微博之後的結果, 所以又花了一段時間記算, 結果如下:


當然微博的量壓倒性打敗 Twitter 與 Plurk, G+ 更不用話說, 但基本上這個是中文, 後來事實上也不限繁體中文與簡體中文, 發現即使設定之後意義也不大, 因此就照 Google 的最原始資料, 畢竟更切近人的行為預設的才是最合理的.

2012年3月6日 星期二

從部落格觀察的失敗來看 Crawler 的設計 (SEO 鑑價系統的初探 IV)

每一個蓋出摩天大樓的建築師, 小時候都是從堆沙開始的.....

雖然說我是蓋不出甚麼可以看的摩天大樓, 回頭來看部落格觀察, 就已經像海灘上的沙堡一樣脆弱. 尤其是昨晚回想部落格觀察時, 本以為是兩三年前的事, 但事實上已經是快六年前的事情了, 現在看起來從中要學習改善的地方太多了.

但這篇文章並不是要去規劃部落格觀察 2.0, 而是來講講以 Crawler 的觀點來看部落格觀察的缺失, 以及從中獲得的教訓, 因為就如第一篇 對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I) 所說的, 這個系統的核心是未來部落格觀察 2.0 的基礎.

而在做新的部落格觀察 2.0 之前想要在 SEO 鑑價系統解決的問題有那些呢?

1. 主資料表與排程在同一個資料表, 會造成 Lock 的機會很高
2. 對於主資料表的依賴度太高, 許多資料沒有做 Redundancy (重複)
3. 抓資料常抓不到時的暫存與處理跟回復
4. 如何把每次抓到的資料利用最大化
5. 想辦法讓一個資料源的抓取保持一定間距
6. 把每次抓到的資料盡量存進歷史資料, 且不會造成太多多餘資料 
7. 使用者輸入不應該有太多的先置處理才能進資料庫

很多人知道部落格觀察事實上也是一個晚上完成的, 當時並沒有想太多, 而是以一個自動化的角度去做出發, 並沒有考量到甚麼校能與負荷, 資料探勘 Data Mining, Big Data, 甚至 SEO, 簡而言之就是沒想到量會這麼大以及這麼多人用, 所以無論是資料, 計算, 排程等等, 都是靠一個資料表 Table 去完成的, 而這樣的社設計, 就是造成後來部落格觀察跑不動最大的原因之一.

雖然後來歷史資料轉到另一份資料表, 但對於這個主資料表的依賴還是相當的大, 很多資料的讀取都是必須要靠這個資料表才行, 因此這份資料表的 Table Lock 變成是最糟糕的問題, 雖然之後這系統做了大量的 Cache 機制, 只要是超過 10 次的 SQL Queries, 甚至 SQL Accesses, 就都有 Cache 的機制, 雖然這機制並沒有做得很好 (在 Plurk.tw 後來又改良一次), 但已經足以應付大部份的問題.

當然在之前就已經很清楚 SQL 最怕的是 Join, 所以除非是 Batch 的批次程式, 我是不敢用 Join 去拖垮資料庫, 但當資料量一大, 即使想 Join 也 Join 不動了, 只是這部份是還好, 但說要排序, 即使是資料庫受得了, 這台年壽將近的伺服器就會立刻熱當死給你看, 想算也算不了, 且在排序時並沒有做接續作業的可能性, 所以這變成是一個很大的問題, 因此部落格觀察已經好幾個月沒有重排名了.

上面的 6 點是最直接要在部落格觀察 2.0 及 SEO 鑑價系統要解決的問題, 所以做了幾項設計:

1. 使用者輸入的資料, 一開始先丟進一個 Queue
2. 將可以重覆使用的資料做統整
3. 把須要抓取的工作丟入排程
4. 每一個資料源有獨立的程式去排程資料庫抓
5. 資料回報時先放在工作完成的 Table
6. 確認資料的正確性之後才放進真正的資料表
7. 在 Rotate 時, 依每份資料的更新去做歷史

因此原本部落格觀察運作時, 只須要一個到兩個 Table(s) 就做到, 就變成須要 8~10 個資料表完成, 所以原本一兩隻程式可以解決的事, 變成 6~8 個流程才能完成, 雖然系統的複雜度變高了, 但能夠負荷的量是以百倍以上增加, 甚至是在效能更可以放大到足以承擔百億筆以上的負荷, 因為每一個流程與資料表的工作變少了, 且都能夠獨立運作, 所以遇到 Dead Lock 的機會變少了.

事實上有關 Crawler 的設計已經有專書了, 像 Building blocks of a scaleable web crawler, 還有 Crawling the web : discovery and maintenance of large-scale web data, 都是討論如何設計大量 Crawler 運作與設計的專書, 都是很值得大家的參考.


基本上在這種 Big Data 的 DataMining 中, 最重要的就是排程 Scheduling, 這部份的演算法與流程是最須要解決與開發的, 當寫完這部份, 問題就解決大半了.

2012年3月5日 星期一

你找的 SEO 公司真的有成效嗎? (SEO 鑑價系統的初探 III)

在這個 SEO 鑑價系統中, 有幾個很重要的初衷:

1. 讓混亂的 SEO 市場有個基本定價的依據.
2. 從基本面讓你知道自己網站經營的狀況.
3. 知道你 SEO 已下的工夫以及要下的工夫.
4. 這些評量讓你知道你要朝那些方向努力.

其中有一點是: "知道你 SEO 已下的工夫" 這點, 在某方面就是評鑑 SEO 的成效, 若這個是內部 in-house 在做的, 就是基本考核的 KPI 之一, 若是外包 Out-Sourcing 的話, 從這數字就可以知道一個很重要的問題: 你是否找到對的 SEO 公司/工作室, 他/他們是否真的做對事情?

當然這系統 2/28 Release 開始到現在也只有一個星期, 而 SEO 這事情是否最的對與做得好, 通常是須要三個星期到三個月才能夠知道成效的, 說一個星期還太早, 甚至我通常說, 可以 "立竿見影" 的通常是不考慮網站體質的 "黑帽 SEO" 做法, 若真的從內容好好下手的話, 時間不會那麼快.

但說不要相信那些可以很便宜很快的 "旁門左道", 除非您自己的網站從來沒有做過基本的 "Webmaster/網站管理者" 該做的事, 而現在知道開始做的話, 的確是可以很快的知道效果, 雖然我也知道這狀況也可能是占絕大多數, 因為大部份的網站經營者還不知道 "Webmaster/網主" 該做那些基本工作, 而這些基本工是有做與沒有做差很多的, 只是這部份不是我這篇該講的, 有興趣的人可以跟我問, 我再跟你說.

拉回來正題, SEO 這件事情不是可以立竿見影的, 甚至是個長期奮戰, 而那些標榜 "只要做上去就不用再花大錢廣告" 這觀念是相當有問題的, 因為資訊是越來越多, 因此若你的內容沒有比人好, 比人多, SEO 就像逆水行舟, 不進則退, 因此已經有很多系統去標榜每天計價收費, 甚至是照上午下午的查詢來去知道有沒有做到第一頁或前三名來計價, 且這也是個一段時間週期的工作項目, 除非是冷門關鍵字沒人跟你搶, 不然這真的是個做不完的事.

因此 SEO 不只要看現在, 更要看過去以及未來, 而未來當然是我們無法知道的, 相對的知道過去的歷史是相當重要, 所以這套 "SEO 鑑價系統" 的重點不只是在現在, 而是在於歷史的評鑑, 尤其是想要知道成效與工夫, 是不可能不看歷史的變化.

下圖表就是一個某網站的某關鍵字的歷史數字變化:


就如同我所說的, 目前這系統才剛做不到一個星期, 要知道真正的效果還是拉長一段時間來看才知道, 但就從上面的表就可以知道這數字的變化是相當快的, 不只是每天都會變化, 是隨時都會變化的, 甚至這變化是沒那麼簡單線性的, 因此這系統是採取有發現到有變化就會 "記錄" 一次, 若一直都沒變化就不會去新增記錄, 無論這變化是一天內多少次或幾天內沒有變化.

只是知道變化的目的就是要去做比較, 要去預測, 要去檢核, 這些都是種時間序列, 都是種人與資源投入的結果, 雖然這數字不見得是跟投入的結果直接產生效果, 應該說都有三個星期到三個月的遞延效果, 但拿來做觀察與比較是相當有趣的.

所以這個系統當完成之後, 希望能夠真的發揮到讓黑帽 SEO 現形的目的阿...

2012年3月2日 星期五

內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II)

在做 SEO 的研究中, 的確本質是在內容創作, 只是這內容創作的好壞是很難去衡量的, 雖然說就是看有沒有用心, 以及很多的技巧與技術, 甚至很多方法論, 這些大約看 3~5 本 SEO 的專頁書籍就可以知道的大概, 但接下來是如何去實踐.

當然這個實踐包含文章的好壞, 易讀性, 介面, 社群操作等等太多太多的因素, 有太多的東西是很難量化, 也沒必要量化, 但除外若是要有一種簡單可以判讀的數字, 倒是有辦法的, 且甚至是很多觀點, 也可以說是很難用單一觀點與數字來去觀察.

我們知道連結等等是外在因素, 是創作很很難去操作的, 甚至在某種觀點是沒必要去操作的, 而文章的好壞也很難知道的情形下, 最簡單的計算方法就是把手伸出來數數, 只是不是叫你真的用人數, 因為搜尋引擎都幫你算好了, 要看一個網站 SEO 的成果與困難度, 若是以 "內容或關鍵字" 相關的觀點, 最簡單的是看下面幾個數字.

A. 某關鍵字在搜尋引擎總收錄網頁數/網站數
B. 你的網站在搜尋引擎總收錄網頁數
C. 在你的網站中某關鍵字, 在搜尋引擎總收錄網頁數
D. 某關鍵字寫在標題中, 在搜尋引擎總收錄網頁數/網站數
E. 在你的網站中某關鍵字寫在標題中, 在搜尋引擎總收錄網頁數

若我們先忽略網頁數與網站數的不一樣, 在這 5 個數字中, 跟你有關的是 B, C, E, 這數字當然是越大越好, 而 A 與 D 是指外在環境, 而外在環境越低, SEO 的困難度也越低, 但除了看 "數量級" 外, 更要看的是比例, 下面是有幾個很重要的組合:

C/A 在某關鍵字中, 你網站占所有網頁的比例 (內容比)
C/B 你的網站中, 某個關鍵字占的比例 (專注度)
E/D 在被寫入標題的某關鍵字, 你的網站網頁與在搜尋引擎總收錄數的比 (標題比)
E/C 你的網站中, 寫入標題與只是寫入內容的比例 (重視度) (D/A)

當然除了上面個比較重要的數值外還有 E/B, E/A 與 D/A 這三個數值, 但整體而言看前四個數值就很夠了, 尤其是大家最常看的你網站在這關鍵字的內容比 C/A 這數值, 但這個是跟外界在比較的, 就像是標題比一樣的, 尤其是 E/C 與 D/A 的關係.

在這 B, C, E 這三個數字越高越好外, 其中這四個比例度自然也是越高越好, 但 B 跟 C 在這四個數值本身也會當分母, 變成你要如何你除了要看在外面的比例, 更要了解自己的專業度 (專注度與重視度), 說要每一個關鍵字都要很高, 除了整站的優化外, 就是內容努力的增加.

而我在這邊會除了把關鍵字的網頁數拿出來算外, 最會去重視的是放在標題的重要性, 若有聽過我的課的人就知道, 我總是說精確的定義出標題是最重要的事, 除了要讓讀者輕易了解, 更重要的事是搜詢引擎也會看, 在其中就是 "下標" 的技巧, 絕對不是一股腦的把所有關鍵字都塞進去, 是最常見的錯誤, 這件事跟做內容是一樣的重要.

所以這四個數值在 SEO 鑑價系統 中, 是首先被拿出來討論的 "加工後數值", 且是顯而易見的, 這其中除了要看其量之外, 最重要的是要找出甚麼是該被重視的, 且這是自己要的, 讀者要的, 也不會去造成誤導別人的內容與方法, 是 SEO 最核心的事.

也就是說, 除了要知道自己該 專注, 重視 甚麼, 把這些 事情/關鍵字 表現出來, 是 SEO 操作的第一要務, 而讀者對這議題本身有興趣的, 就會自己進來, 因此當讀者進來看我們的內容的時候, 更應該要認真的去面對所創作的內容是否有價值, 這個價值的部份, 我們就待下一篇討論.

2012年3月1日 星期四

對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I)

自從開始部落格觀察後, 我就跟一些 SEOer 扯不清, 但說扯不清是誇張點, 應該說分成兩類: 一種是對於我做的事非常贊同, 希望我能跟他們合作, 另一類就是一直來找我吵架, .... 而說因此我為了對搜尋行為的了解, 繼續念圖書館說是太嚴重了, 但我一直認為資訊是人類行為最大的依據, 有人說, 網路上有 95% 的網頁都是垃圾資訊, 當然這句話不是指價值判斷, 而是有太多黑帽 SEO 的人為了 "搜尋引擎優化" 做了太多無意義的資訊, 雖然這理論上是正常使用者是看不到, 但對於像我在做網路觀察對這種現像, 只能三聲無奈......

有一天, 有人問我說如何把這問題消彌, 我原本想說這是不可能的, 因為黑帽 SEOer 當嘗到甜頭後, 就像是販毒過的人一樣, 不願意去認真創造內容, 而是想要去賺 "Easy Money", 畢竟認真的創造內容跟像工作與販毒賺錢的差異一樣, 這真的是 "Too Damn Hard" 了, 還不如去利用手段去創造目光, 點擊, 連結, ... 無論這是真是假, 只要是有效就可以了, 只是若是社會一直這樣的話, 就我的觀點的話那就真的太糟了, 因此我後來認真想了兩個可能性:

1. 讓大家對內容與使用者行為能夠更精確的掌握, 在創造夠好的內容外, 更可以建立更好的使用者介面, 讓使用者經驗與搜尋引擎優化都能達到一定程度.

2. 讓經營與行銷的人更去了解整個網路行銷與 SEO 的關連, 以及更正確的了解如何選擇好的 SEO 方式與廠商, 甚至提供好的方法讓搜尋引擎優化的價位更透明.

雖然我不認為我是個多清高的人 (事實上還挺糟糕的), 但我很清楚的知道 "目的不能讓手段神聖化", 只是說要我去做傳教士跟大家講如何做好內容與 SEO 是不太可能的, 甚至我知道我去做 SEO 只會討罵, 因為我本身就是一個好糟的 PM, 因此我除了只在 SEO 公司當顧問外, 也幫顧問的公司做做相關的工作, 自己是不會去接這種事, 因為要一些人去了解甚麼是 "白帽", 甚麼是 "黑帽" 的 SEO, 不是我不願意講, 而是我常常是因為以為對方了解, 而越講讓別人越糊塗.

而我在這邊能做的是甚麼呢? 當然寫寫相關文章讓一些真正專業的操作者能夠知道更多的方法, 不要讓那些不為使用者思考, 不願創作內容的黑帽SEOer過於輕易的去操弄搜尋引擎, 除外, 我能做的事大概就是: 提供好的方法讓搜尋引擎優化的價位更透明.

事實上說要做這樣的一套系統已經有三五年以上了, 甚至在前年都已經把要抓的資料項目都寫出來了, 也就是基本的演算邏輯當時都已經想好了:

I.關鍵字狀況: 14 項
II.網站狀況: 10 項
III.網站關鍵字狀況: 6 項
IV.對手強度: 4 項

都想好大概的公式是:

分類分數: sum((log(X)-LOG(Q))*A)
價格: (I+IV*n)/(III+log(II)) * Base = Charge
前20名: Charge
前10名: Charge*1.5
前三名: Charge*2.5
第一名: Charge*5

這樣的一個系統分析的草稿已經寫很久了, 但過了兩年還是沒做出來, 而在上次的 iSearch 時, 我就宣布要做 "部落格觀察 2.0", 此時就在我腦海裏一直擱在心上, 但由於我的惰性等等的缺點, 在被追殺不知多少次時, 我在上上星期重新檢視部落格觀察, 我才發現這些公式早就因為時代的變遷失去意義了, 若要真的要讓這排行有正確的反應現實, 部落格觀察 2.0 已經是勢在必行了.

只是說要做出部落格觀察 2.0, 的確是說起來容易, 困難度極高, 事實上部落格觀察整套系統是透過幾百隻程式, 15 台電腦 (伺服器與Agent), 每分鐘有 3~5 個來自於 50 個以上不同的背景程式執行, 環節相當複雜, 有時我常常做在電腦前想要把一些問題解決, 但想著想著就頭暈, 對於自己設計出這樣一套複雜的系統相當無奈, 所以在 "Divided and Conquered" 的作法下, 先去完成簡單的核心, 就是: "SEO鑑價系統".

因為這套系統的核心是與部落格觀察 2.0 擁有相同的核心, 但複雜度是少了 N 倍, 若是沒完成這個, 新的部落格觀察也不用想了, 而看到 228 的四天連假是個壞天氣時, 本來我早就放棄假日工作的我, 想想說應該趁這假期把這系統的核心做個開始, 畢竟我知道開始是最困難的, 雖然這系統已經開始不知道多少次了, 最後終於在 2 月 29 日對外說已經可以開始測試了(封測), 而打算等四月的第一天開始公測,  畢竟這系統說簡單是完全不簡單, 從輸入到最後算出來, 須要六到七個環節, 有些環節是不靜下心來寫一定會有問題的.

Anyway, 在封測開始時, 我大概寫出這一篇文章說明我做這套系統的初衷, 而我在噗浪的好友以及Google Plus 的名單都已經收到網址了, 而有興趣想要玩玩看的, 可以留言讓我知道, 畢竟現在離成品還有段時間, 不是我自珍, 而是不太能見人啦.

寫到這邊, 我想我應該有很多碎碎念的時候, 所以就成立個 Google+ 專頁, 事實上是去年就成立了, 就拿出來用, 有興趣的人可以加入這個 "SEO 圈圈"...

2012年1月2日 星期一

我的 2011 年 3C物語

去年的此時我是想寫一篇, 我 2010 年買過最值得推薦的 10 項 3C 商品與最不值得推薦的 10 項商品, 主要是因為搬家的關係大量擴充設備, 因此買了不少 3C 商品, 自然有其推薦與不推薦的, 但今年不要說是買很少, 且還是很勉強的湊出 10 項來寫, 甚至後面兩項跟本不是我買給自己或自用的, 而是給爸爸小孩的禮物阿~~~

後來去年因為真的太多寫不完, 今年就應該很輕鬆了:


1. Xperia Play

價格: 約 8K (二手)

上一隻手機是 N900, 當 Nokia 宣布要停止開發後, 我就打算跳槽了, 但真正的動機也是因為 Google Plus 的關係, 覺得要善用 G+, 還是要去弄台 Android, 在認為自己是 Pocket Game 的認真者的觀點, 不入手 Xperia Play 會對不起自己.

雖然這隻手機我買了之後事實上並沒有真的拿來打電動, 但因為是我第一隻 Android 手機, 當然覺得學到不少東西, 因此設定為今年買最有價值的 3C 商品, 畢竟 Sony 還是 Sony, 說不定我下一隻還是會買 Xperia.

2. GF2

價格: 約 12K (二手)

雖然 2010 換了 F200, 但 GF2 是不同的 EVIL 取向, 我是不敢真的花錢買 DSLR, 畢竟我知道要一直帶善用他沒那麼容易, 但當 GF3 出來後, 我就認為此時入手 GF2 是好時機, 一用之後, 我才發現沒早一點用類單眼是個很大的錯誤阿.

雖然畫質沒有 DSLR 好, 但幾乎可以隨身攜帶的觀點, 夠勉強的便宜是讓我想要入手的原因, 沒想到不到半年就幾乎拍了 5000 張, 且已經可以拍出很多我想要的效果, 所以我常見人就推薦快去買台 GF2 or GF3, 這幾乎是不會後悔的.



3. N3DS



價格: 約 8K

買 Pocket Game 不是為了 Console 去買, 而是為了遊戲去買, 我不是因為 Zelda 或其他大作, 反而是因為 Tom Clancy 的一個作品去買的, 後來也的確成為我 3DS 片中玩最久的一張.

當然裸視 3D 是個很須要適應的產品, 我也花了 2~8 小時才慢慢適應, 一直到 20 小時後才覺得不用花力氣, 若是不常玩 Pocket Game 的人須要更久的適應時間, 但畢竟產品只是產品, 內容才是重點阿, 即使你是當 3D 相機攝影機就是很不錯的理由.

4. 浩鑫XPC Core-i Quad

價格: 含 Windows, 螢幕約 20K

經過了快五年, 我終於該到又入手一台 PC 的時候了, 尤於新家很小, 因此最後還是選 Shuttle XPC 來擺放, 認為這是 CP 值還可以的一台, 至少有時有須要上網的須要, 重點是還是偶而可以偷玩 Windows 遊戲, 尤其我在 Steam 上的遊戲已經破一百種了.

這也是我第一次買非隨機版的 Windows Licence, 畢竟我還是習慣所有的軟體都是合法的, 不是我推崇智慧財產權, 而是剛好相反, 為了省下更新的麻煩才做出此舉動, 結果這一台大部份都不是我在用, 畢竟我這台 MacBook Pro 整體而言已經很夠用了.

5. Logitech G700

價格: 4K

我一直說滑鼠是一個人每天花最多時間摸的東西, 比你的女友男友的時間還要多, 一隻好的滑鼠可以讓你工作效率差到 10%~30%, 所以千萬不要輕忽滑鼠的重要性.

這隻滑鼠我已經寫過專文了, 只是後來不知甚麼原因就當機固障, 現在還在修, 不然我會放在第 4 名而不是第 5 名, 因為沒想到這次的羅技經驗給我不是很好的感覺.

6. iHome iD8

價格: 3K

但意外的是 iHome 給我不錯的經驗, 不只是聲音比 MacBook Pro 好, 且甚至比起我主要的 Sony 5.1 系統來得好, 但這個本來就是不同方向.

可是自從 iOS 升到 5.0 後, 就給我此裝置不支援, 現在只能用耳機孔連結, 真令人失望阿.

7. J88

價格: 1K

是的, 再買一隻 J88, 這是第二隻, 且一口氣買 3 隻一起用, 畢竟後期的 PHS 手機真的太容易壞了, 因此還是相信 J88, 我想很多人都會認同這句話的.

8. Denon C560

價格: 2K

發現內耳式耳機的音質還不差, 所以後來買一隻來戴, 這隻的確是不錯, 但放在最後一名是因為剛買不久, 且最近比較少聽阿.

9. iPod Touch

價格: 約 9K

如同前面所說的, 這是買給父親的父親節禮物, 只是讓我失望的後來這台喇巴故障, 還送修拿一台新的才正常, Apple 開始墮落了.....

10. LEGO Mindstorm NXT

價格: 約 20K

跟前面幾項商品比較起來, 這是最高的單品價格, 幸好看我小孩蠻常玩的, 不然就真的太貴了....

事實上就 3C 商品而言, 應該還包含一些小週邊, 以及記憶卡隨身硬碟之類的, 還包含鏡頭也不算便宜, 但這個很難有主體性, 所以就略過了.

這是我 2011 年買的 10 項 3C 商品的經驗與感覺, 你呢?

可以跟朋友講的2011十件事

好久不見是最討厭的招呼語, 因為你總是不知道想要講那些事, 尤其是一年過去, 要講多少才算夠完整, 面對不同人要講的事總是不一樣, 去年寫了 2010 的十件事對我而言是相當好用, 今年也如法庖製吧.

去年的十件值得寫的事是在捷運日記上寫的, 而今年因為不預期還會有這樣的時間, 所以就在馬桶上就開始寫吧.

1. 開始看歐美劇

在之前不是說沒有在看歐美劇, 但在去年因為 Children of the Dune 開始看 Mini-Series 後, 現在已經看了幾部影集了, 但說是開始看, 真的看完的只有 4400 與 Lost, 有些都只能說開始, 因為跟本還沒結束, 尤其是 Glee, MD House, Fringe, 都是還在製播的.

迷你影集就不少了, 從 Lost Room, Lost in Austen, 都是不錯的迷你影集.

為甚麼有這機緣開始看歐美劇呢, 當然是因為把一些收藏的 DVD 轉到硬碟可以輕易的選片後, 原本買的都因此開始看了,  加上亞藝的出清與去大陸搬了一堆 DVD 後, 結果 2011 看電視劇與迷你影集的時間遠超過了電影, 相較的電影可能一年看不到 50 部, 這對我而言是生活很大的轉變.

2. 小孩的成長

小孩子從小二到小三, 從幼幼班到小班, 小孩子的成長不可不影響到父母的生活, 無論是學校或課餘, 其中由其是 Sky 開始學畫畫, 小提琴, 圍棋, 打鼓, 以及樂高機器人 NXT, 尤其是暑假就去了六七個營隊, 他應該收獲很多, 家長也因此多看了一些東西.

而最大的生活差異在於從小小孩從三歲到四歲, 已經從外星人變地球人後, 雖然生活沒有那麼無奈, 但家裏的樓地板面積被玩具逐漸占滿, 說生活沒差別是不可能的, 只是未來會變好或變壞沒有人知道.

3. 遊戲

2010 可以說是 Facebook 遊戲的一年, 2011 則是只剩下 Web Game 天策, 但隨著 N3DS 的發行, 也玩了幾個遊戲, 年終這幾天大概就是 "二之國" 了.

但也是偶而偷玩 ipad 遊戲, 但這種東西很容易就會失去意義, 耐玩真的不多, 相較可以動腦筋的桌遊還是最有趣的, 尤其是年終我隨身攜帶的矮人礦坑與海賊王, 但 ipad 的 Elder Sign 也是大家值得買的.

4. 工作的變化

理論上工作是花最多時間的, 但這年度回顧不是在討論花的時間的多少, 而是改變, 而今年在工作上是變化最少的, 只有在年終少了一個阿瑪科技外, 其他變化真的不多, 頂多是數位文化協會的上班地點改變是讓人傷腦筋的.

但值得一題的大概就是癮科科與 Engadget 中文版因為停止代理引出不少紛爭吧, 而對我雖然影響不大, 但對這群朋友來說是影響相當大的.

5. APEC Tel 出國兩次

我是很少出國的, 即使是公出或是旅遊, 但今年就因為 APEC 出去兩次, 一次是去大陸, 一次是去馬來西亞, 一次是去 6 天, 一次是去 4 天, 說實在是在一年 365 天占不了多少, 但就收獲上還是有的.

一個是去網路本來就很封閉的國家, 一個是去開放與封閉並存的國家, 前者我搬了 600 張 CD/DVD 回來, 後者是行李箱沒甚麼改變過狀況, 但感受一下 Culture Shock 是對生活有不同的體認的.

7. 神貘天氣

至少 2011 年過得比 2010 年好太多了, 不只是前年是個大低潮, 而去年雖然好沒多少但也逐漸恢復一些感覺, 開始做一些自己想做的事, 尤其是這個神貘天氣嚴格說是為了實踐我莫拉克風災後的願望, 但也個神來之筆影響很多學習很多的計劃.

只是這計劃還在一直做, 因為除了是當作社會運動外, 也想練習自己 Data Mining 的能力, 雖然這是個吃力不討好且沒甚麼人會注意的案子, 跟部落格觀察不一樣, 但想做還是做了.


8. Google Plus

今年除了神貘天氣外, 也做了個小網站, 就是 Google Plus Page 的 Rank, 雖然我知道國外有人在做, 但我還是想以自己對社群經營觀點來看 G+.

當然也是 Plurk 的陌落, G+ 的興起, 我反而跟 FB 慢慢在三個 SNS 取得平衡, 雖然還是沒有認真玩 Twitter, 但今年在某方面被我而言是重新對 SNS 定位的一個思維.

9. iTHome 鐵人賽

參加 iTHome 鐵人賽是第三年, 至少要花 30 天寫, 今年我是還算認真寫, 只是最後是以第三名作收, 若照這樣的話, 我明年就不用參加了, 但至少寫了 "高有效性" 的這議題, 對我是個重整以及讓別人知道我的想法的機會, 5000 元算是額外多拿的了.

10. 小媌去逝

雖然在之前早就知道小媌已經不久貓世了, 但當天我並沒有很難過, 甚至沒留下半滴眼淚, 但在頭七作夢時, 牠回來跟我說牠這輩子是很幸福的貓, 叫我不用擔心時, 在作夢時與在起床時是不由得哭了.

11. 音樂

雖然說只寫 10 點, 但聽的音樂總是有不同的變化, 像今年看了 Glee, 所以說整體而言今年無論是影集或音樂都是 Glee Year, 雖然還是有新增像 Isao Tomita, Michael Giacchino, Imogen Heap, Philippe Rombi 都是新的對像.

當然 10 點或 11 點是寫不完的, 若一年那麼少可以寫的就話就乏善可陳了, 還有不少今年陪伴我的家人, 以及朋友, 這都是很重要的價值.

而事實上還有幾點我還沒寫, 因為我打算寫成另一篇, 我的 2011 年 3C物語.

2011年11月25日 星期五

最重要但也最沒用的 SEO 心法

誠實說心法跟方法有甚麼不一樣, 我也不知道, 但不小心就下這個標了.....

做 SEO 的公司真的很多, 事實上說會做 SEO 的人更多, 只是我也都知道, 這邊可能有 90% 的人都是學了一招半式, 就自稱大師, 但這也沒甚麼不對, 因為大師本來就是用喊的, 每一個人的標準都不同, 對我而言, 每當學了一些新的想法與作法, 總是發現還有很多東西要去完成與實作, 而我實際上做出來的不到我想的 20%, 所以可能永遠只能當個初學者.

身為一個初學者, 就要努力的去唸書, 看網站, 實作與檢驗, 畢竟 SEO 最有趣的地方是會隨著搜尋引擎與使用者的變化而變化, 雖然我因此還去唸個圖書館碩士 (只是後來沒唸完), 目的就是要了解人在搜尋知識的思維, 這部份倒是千百年不變的, 而 SEO 的書真的很多, 直接冠上 SEO 的英文書就有二三十本, 而我們知道不可能只唸這些, 還有很多 Marketing, Optimization, Webmaster, Web Analysis 這些也都不能不會, ... 嗯, 離題了, 我們來講這個 "最重要但也最沒用的 SEO 心法" 吧.

為甚麼會寫這篇, 也是因為有人引了一篇文章, 說 Google "從未" 用過 Metadata 的 Keywords 來作判斷, 事實上我不確定為甚麼會這樣, 但事實上大家都知道 Google 是從 Pagerank 起家, 而也從來沒說過他們做的是 Content Analysis 內容分析, 更不用說的是去使用 Metadata, 當然以資訊學的角度, Pagerank 這種以 Reference 的行為也是 "Meta Data", 只是我想到我在 SEO 公司講課時, 我都說: "我做的網站從來沒有去設甚麼 Metadata Keywords", 但我不是說這個不重要, 而是排在很後面, 所以我當時寫了一些次序:

1. 網域名 Domain Name: 但不太可能為了 SEO 去修改與延伸 Domain Name.

2. URL: 除了 Domain Name 外, 檔案名, 目錄名是第二個重點, 而自從 Wiki 事件後, 已經沒有人不注重這塊了.

3. 標題 Title: 這點是最重要, 但也是可以做最最基礎的檢驗, 因為連 Webmaster Tools 都會跟你講你做錯了 (重覆標題, 無標題...), 若你這點都沒做到, 表示有太多基本功沒做好.

4. Head 的 Tag: 在網頁是用 Title, 在內文是用 Head, 而現在有太多人喜歡用 div 來解決一切, 但 Head 不是用來控制大小而已, 而是要講述內文的重點.

5. 其他 Logical Tag: 例如該是用列表時要用 List, 在早期我還會鼓勵下 <em>.

6. Alt, Desc 等符合 "無障礙" 的 Tag: 畢竟搜尋引擎就不是人, 本來就須要一些內容標籤來輔助.

......

N. 關鍵字密度 Keyword Density: 通常重點的名詞一定會重覆, 所以關鍵字密度是很重要的.

.......

M+N. Meta Data: 有很多 Meta Data 可以寫, 但在某方面等同內文, 只是一個是真正的 Content, 只是可以不用人語方式的去描術.

所以 Metadata 到底重不重要, 當然不能忽略, 至少我把他放在 N+M 點, 所以若是前面幾點都做到, 當然也是該去注意, 因為在我觀點, 這也是基本功, 雖然前面還有 N+M-1 點的基本功比他更重要, 也更要去做, 但花時間在這上面, 有點本末倒置了, 其中 N 大概是落在 15~25 之間, N+M 大概是接近 50 了吧.

那甚麼是本呢? 在 N+M-1 點中, 有 30% 的重點是 UEO, UX 等跟 UI 相關的事, 另外還有 50% 就是 "內容/Content", 也就是簡而言之: "內容是王道", 這句話我覺得我都可以設成 Hotkey 直接打算了.

最近在了解與實驗 ("操作") Google Plus 時, 又讓我更再次體驗到 "內容是王道", 因為內容的寫作是最重要, 所以認真的寫是絕對沒有問題的, 但也不是說沒有 "技巧", 其中有很多包含去了解對象, 了解使用者須求, 了解如何觸發讀者的感覺, 加上編排, 等等, 都是以內容做觸發的, 甚至說, 若沒有內容, 如何去做 UX/UEO (使用者經驗優化), 相較於內容, 很多都是非常非常枝微末節的事, 這真的是無話可說.

G+專頁Top100 來看, 當看到丁丁飆英文沒甚麼人訂閱時, 我覺得很可惜, 覺得應該要來好好的推薦, 當然就內容是沒甚麼問題, 但問題是在於推薦文的寫作與曝光, 雖然就這張圖來看, 的確是很有效果, 但事實上更強的是 Taipei GTUG 的一篇文章, 被瘋狂轉貼, 即使在沒有考量到使用者, 對象, 編排, 等等太多的技巧, 一個有趣的內容 (雖然那篇是說 Google 的 Doodle 可以玩), 其效力就是在於好的內容.

但如何寫出好的內容, 我以前都說這個要去找老貓或作文老師, 但就技術面而言, 就是 "越快寫, 寫越多, 越創新" 這三點, 當然創新這個是很難去想, 而越快寫則是新聞類型的平台才能做到, 而我們能做的就是 "寫越多".

我也強調要常看 Weblog Analytics 與 Webmaster Tools 去了解使用者須求, 但讀者的取向是很難抓的, 甚至最難抓的是 "傳教士" (這個以後可以寫一篇文章來討論這點), 相對的, 只要認真寫, 努力的寫, 總是寫 10 篇就有一篇會受歡迎, 若不行, 就寫 20 篇, 還不夠的話就寫到 30 篇或 50 篇, 一直這樣寫, 一定會抓到內容方向的感覺, 只是這前提就是 "努力的寫".

以技術面來看, 如何知道你寫多少呢? 最簡單的就是去 Google 下 site: 這指令, 例如說想要知道這個部落格有多少內容, 就按 "site:geneoralspeaking.blogspot.com", 但因為每次或多或少不一樣, 應該可以看到 300~400 這個數目, 就是你創造出來的內容.

雖然說寫文章是最基礎增加內容的方式, 但做網站不能只靠內容, 也要靠功能面的, 例如做出一個服務, 很有可能就可以產出上萬或數十萬的網站, 像我很喜歡做系統去分析網路的事情, 所以我現在已經有 3 個超過十萬筆資料的網站, 還有另外 5 個也超過一萬筆, 其他小網站也很多, 這就是 SEO 的優勢, 因為我不是個很會寫文章的人, 做網站還差強人意, 所以我只好努力朝這方向去做.

Wait, 但應該有人發現一件很重要的事, 原本引用的文章講的事是: Backlink (反向連結) 不是嗎? 怎會變成老生常談的 "內容是王道" 呢?

嗯, 我在寫這篇時, 也做了一個 Google Docs, 我命名為 SEO Weapon Checklist, 也就是說把我可以用的幾個網站或部落格, 其 Site 的數目做了一個整理 (雖然這些都在部落格觀察可以做到), 因為當你的網頁越多, 越多不同的網站, 若其 PR 值也越高, 代表你的 SEO 武器 (Backlink) 也越強大, 也就是說, 現在最實際的 SEO 方法是連結, 且是好的連結, 白的連結 (很多人會做黑的), 但連結的成本與價值不是沒有的, 就是在於你做出來的網站與內容阿.

若沒有的話, 只好看人臉色, 用交換的, 用買的, 但最便宜與最貴的, 就還是自己做, 甚至有時候都可以說, SEO 白的與黑的差別是在, 你花多少成本在這邊, 因為有太多黑的, 不去做內容, 甚至連結都是用 "Spam" 的, 用 "Linkfarm", 做一些寄生與討人厭的事, 所以當我看到有很多人/公司, 當沒有內容卻有很多連結或粉絲數, 我只能搖頭....

寫到這邊, 我才發現原來我是在擁兵自重阿... 哈哈哈~~~~

2011年11月18日 星期五

身份的傲慢, 誰尊重誰?

在現在許多大學生都不知道的 20 年前, 我們是沒有大學法的, 不要說是大學學生只能聽從 "有三種人是沒有自由" 的說法, 大學教職員也受制於教育部, 而在我們那一年代, 網路還不是很興盛的時候, 站出來說話的成本很高, 不是要貼大字報, 就是要發傳單, 但也因為資訊本來就不夠充足的那個時代, 大字報是學生當時發聲最主要的管道.

當然 20 年前, 許多教授是很保守的, 雖然現在也沒開明到那邊, 嘴邊最常講的就是 "尊師重道", 最強調的就是 "君君, 臣臣, 父父, 子子" 的這樣的 "道德", 這個聽起來非常合理, 說穿了就是: "有些人是可以管人的, 有些人就是該被人管的" 階級意識, 雖然校刊是站在學生這邊的, 學校還是有太多的管道去 "傳遞" 這樣的概念, 而其中在交大那時候的圖書館館長, 更是透過許多方式寫了不少論述, 而學生只好用大字報回應.

其中, 我最有印像的是有一個學長貼了一張海報, 寫了一篇看起來是同意館長的說法, 但把每一個 "尊師重道" 浮貼, 下面打開來看是 "聞道有先後, 術業有專攻", 事實上師不代表道, 尊不代表重.

只是這個 "尊重" 這句話, 理論上應該是在對應人與人的平等關係, 但在上位的人, 卻是把 "尊重" 當成 "畫分階級" 的手段, 用 "師長", "長輩", 等等去劃分既有利益, 也就是說, 在被分割在下面的人, 請乖乖的把利益留給我, 因為我是該被 "尊重" 的!

就像是提出 "團結" 這口號的人, 從來不會是因為團結, 而我放下成見認同你, 而是請你乖乖的站在我這邊聽從我的話; "尊重" 也是一樣, 不是我因為發現你的須求而幫助你, 而是請你了解我的須求幫助我, 我這樣說還算 "鄉愿", 因為真正說出 "尊重" 這兩個字的人心裏的 O.S. 應該是 "你這下等人還不聽我的話", 但何謂上等人何謂次等人, 簡而言之就是他的身份就代表上流階級, 你就是該被踐踏也無所謂的人.

當一個想要緊握著因為 "社會階級", "身份地位" 等等的假像獲得的優勢與利益的時候, 無論這取得是對與錯, 能夠放話的大概就是 "尊重", 換言之就是再次證明他的 "優越感", 與 "威權", 從來不會因為有既得利益者對弱勢族群放 "尊重", 因為這個詞叫做 "體恤/憐憫", 也就是說 "你這賤民還不因為這樣的施捨來感激我的大恩大德", 不這樣說就不是上位者了, 更失他的 "身份" 了.

事實上真正了人之間的關係, 不會因為身份地位改變不會這樣的說尊重, 而今天我看到一句某 ETBlue 說的話很不錯:

"我覺得很多不值得尊重的長輩,都會特別在意晚輩是否尊重他耶。XD"

也就是說, 原本 "尊重" 若是放在對等的架構上, 說不定該是很不錯的, 但通常都不是這樣, 大部份都是放在 "長幼, 尊卑" 等等的威權上下中使用的, 強調 "身份" , "場合", 來去強調自己的 "權力", 當有人去挑戰他的地位的話, 就會跑出 "五個不尊重" 的言論出現, 更有公權力的威權系統去保護 "尊嚴", 畢竟只有威權才能制止 "不尊重" 的人, 尤其是那些不夠格的人, 本來就不該出現在對話場合, 要夠格才能站在講台上, 至少我們可以肯定的他不會叫他那些 "社會地位" 高的人來 "尊重" 他, 不然這機制就失去了發揮的價值.

的確人是應該互重,  更要自重, 要不要去 "尊重" 他人是自己該去思索與行為的, 而想要去要求他人來 "尊重" 你, 通常是你做了一些不值得被贊同的事, 更是因為你的權力與地位做出迫害別人的事, 此時你都不尊重別人了, 想要別人尊重你, 就是標準的 "雙重標準" 或 "階級意識" 了, 或許當你說出這個字詞的時候, 只是再次證明你是 "高級知識份子" 罷了....


尤其是你更不值得 "尊重" 時...

熱門文章