2012年12月24日 星期一

WWW: 甦醒

說這是試讀也可以, 但也是第一次試讀, 要我寫甚麼我還真不知道該怎寫:

寫序無論是一段話或一短篇, 都可以很輕易的寫出好話推薦給大家, 但是試讀是該寫好話還是甚麼都可以寫我還真不清楚.

大概是很久沒看紙本的小說了, 這本書我大概花了 3 次各 1~2 個小時才唸完, 只是這三次差了快三個星期, 畢竟有時候書包已經放不下這本不薄的書了.....

當作品付梓之後, 作者就應該沒有關係了, 剛好在閱讀的過程中, 我也唸到一篇科學寫作:如何讓複雜的議題變得平易近人又好讀?文章, 這篇文章也給我很大的感觸, 此時對照這本書還發現這挺有趣的.

作者是我看完後再去查是誰的, 甚至因為試讀本的關係, 所以是一本封面全白的書, 甚麼得獎記錄我甚麼都不知道, 就拿起來唸了, 這也是一定跟你不一樣的閱讀經驗的差異.

因為分成三段, 我剛好有三個不同的情續, 尤其這本書也是由三條線來作引子.

第一次閱讀: 覺得是個不錯的設定, 提出很有趣的可能性.
第二次閱讀: 這三條線各自有一個段落了, 讓我不由得更想知道結局.
第三次閱讀: 突然變成神怪小說了, 社會性的批判都不見了.

看完後, 我覺得這個作者若不是想要寫成三部曲的話, 這樣的一本書是很糟糕的, 有種讓人想要早點寫完的感覺, 前半部鋪陳龐大的系統一下子縮小成一個 "WWW" 是如何甦醒, 若是祂還真的走出來會有趣一點, 而實際上就突然嘎然而止.

當然要我來寫序要寫好話是相當簡單的, 因為這本書不是沒有東西, 包含我還真的沒想到過:

有沒有可能某些封包一直活在網路上一直傳遞, 達不到目的地或不會消失?

就一般網管而言應該就可以輕易的說出 TTL 的機制, 但我們更清楚演算法有時會有漏洞, 更不用說去實作寫出來的 Bug 錯誤更多了, 而有沒有可能這些無法達到目的的封包活了起來呢?

而最令我拍案叫絕的是把語言用解空間的維度來判斷智能, 這是我一直在做語意網路中沒想過的, 雖然原作者只是要來證明這 "智能體" 的能力, 但確給我不少工作上的靈感, 單單這點, 我就可以推薦在研究語意與網路行為的人都來看這本小說.

尤其最後談到生命機, 我的確肯定作者在寫小說所具備的素養與功力, 但此時反而更是扼腕, 更證明他可以把這本寫說寫的很不錯, 但寫到預期的 30% 規模時, 就以剩不到 30% 的規模作結束, 該講的都沒講....

雖然我是相信所謂的 "人工智慧" 不是人 "創造" 出來的, 而是人透過特殊的人機介面給 "蘊育" 出來的, 只是一本好的科幻小說應該提出一個好的可能性與原理, 而不只是 wild dream, 也就是說至少也要有個基本的假設與原理, 而不是最後的結果.

Anyway, 我相信有些 meme 肯定是作者的原創, 只可惜這作品不是屬於瑕不掩玉, 而是須要再著磨的, 但若是以一個科換熱愛者或大量閱讀的人, 這本可以放進清單...

P.S. 下面是原書預告, 若是你是影片控的話也可以用這角度看.



2012年12月19日 星期三

這部落格 2012 末日前的熱門文章

雖然說, 即使末日會不會真的來臨, 但肯定的再過幾天 2012 也一定會結束, 我們來清算一下今年這個部落格的熱門文章吧....

現在比較簡單的方法就是用 Google Analytics 的自訂報表就可以輕鬆產出, 也就是只要把下面的設定檔 https://www.google.com/analytics/web/permalink?uid=LUMRcxj6QCOf5VNy4kW2Dg 匯入就可以了, 但記得要把週期設從 2012/01/01 到今天, .....

那我們來看一下這個黑貘來說的前 10 大熱門文章吧:

1. Flat Rate, 固定費率, 吃到飽背後的意義
2.  台灣媒體進網路版的大絕: 無窮盡的分頁
3.  Flat Rate, 固定費率, 吃到飽背後的意義 (改)
4. 台灣有多少獨立(思考/寫作)的科技(網站/部落格)呢?
5. 若做 SEO 只是為了 SEO, 就不是好的 SEO
6. The New 部落客百傑 社群力指標 的一些設計想法
7. Facebook 臉書六年下來....
8. 影響網路速度的原因不只 80 種, 但知道最真實的方法只有一種
9. Google+ 專頁的藝人策略 (Google Plus Page)
10. Blogger Top 100 部落客百傑 2012   

看起來吃到飽的事果然在這個部落格很重要, 難怪我的肚圍也越來越大了.... 反倒是一系列的 SEO 文章都沒人看, 這才是我今年工作的重點阿...

理論上還有十幾天 2012 才會結束, 但沒人擔保星期五以後還能不能貼文章, 所以就先貼了.... 呵~~~  逃~~~

原始設定取自於 http://thefuturebuzz.com/2012/12/17/future-buzz-10-most-popular-posts-of-2012/

附註: 這設定檔不是所有的部落格都適用的...

2012年12月10日 星期一

想抹黑學生很簡單, 但想抹黑 Edward Asner, 就...

事實上美國媒體也很喜歡玩抹黑這種方式, 這次對象是 83 歲的老演員...

一群加州的老師做了一個影片, 來抗議富人都不繳稅, 而欺騙大家, 其中有一段我看了很感同身受:

"富人說我這樣做是為了你們好, 因為你們夠努力說不定以後有一天也會變富人"
資本主義沒甚麼不好, 用這種方式來建構成功主義真的很糟糕, 只是媒體並沒有因此去反駁, 而用了一段影片, 就是富人尿在窮人身上, 因此就拿當時配音人開刀?

配音是一個曾獲得幾次 Emmy Award 的 83 歲演員 Edward Asner, 記者問他記不記得內容, 他說他不完全記得, 但他完全認同上面說的, 而記者進一步問他你記不得富人尿在其他 99% 窮人身上那段, 他說這太噁心了, 應該相反才對, 還進一步問記者, "你有錢嗎?" 記者回答 "是的", Ed Asner 就說 "我可以尿在你身上嗎?"

結果最後的新聞就是: "Ed Anser 揚言要尿在新聞主播", 而這影片的內容與要講的事..... 嗯, 不是那麼重要了....

你以為這是很久的事嗎? 事實上這是上星期 12/5 的事.....

延伸閱讀:
http://www.foxnews.com/on-air/hannity/2012/12/06/exclusive-ed-asners-bizarre-response-role-propaganda-cartoon

http://newsbusters.org/blogs/noel-sheppard/2012/12/05/ed-asner-narrates-tax-rich-animated-fairy-tale

而 Edward Asner 在台灣可能比較少人知道, 但說到天外奇蹟的那個老先生, 就是這位, 且是以他的形像為藍本的, 只是想要用這手法貶低得到五次金球獎及七次艾美獎的老演員, 來去抹黑這影片, 似乎還沒這麼簡單, .... 但若是對象找的是學生的話, 說不定比較簡單...

Anyway, 我們來看影片吧....



2012年11月24日 星期六

從電影來學 Bumbler

到底 Bumbler 怎麼翻譯成中文, 就我學習語言的習慣, 很多東西都是翻不得的, 尤其某方面是只能夠意會而不能言傳.. (那要語言做甚麼), 但沒有在國外生活過的我, 雖然當過不少次口語翻譯, 但大部份都是專業術語的須求, 而不是英文如何, 其中也包含我得英文學習都是來自於電影....

因此說到 Bumbler, 我腦中第一個不是馬皇, 而是更具英雄人物的幾個著名角色, ...

1. Charlie Chaplin in City Lights, 城市之光的卓別林

這部片不用說是電影史上的經典作品, Chaplin 扮演一個甚麼事都做不好的人, 但因為有真誠的心讓他成為英雄, 在某方面也蠻像馬皇的, 甚至馬皇現在是貴為總統, 即使有人說他甚麼事都不會做, 也是強過不少人了, 在我眼中, 相似指數有 75%


2. Lt. Frank Drebin in Naked Gun Series, 主演站在子彈上的男人的 Leslie Nelison

但說最合適 Bumbler 且演得最像 Bumbler 的是另一個英雄, 是大家熟知白頭髮的 Leslie Nelison 萊斯理尼爾森, 其中也包含他主演的 Police Squad 更是這類型英雄的代表, 甚至很合於 "余光中教授" 眼中的大智若愚, 因為 Lt Drebin 可以說是在任何時候都能夠化險為夷解決問題說, 可以稱之英雄而無愧阿, 相似指數有 85%


















說到這部份還真不勝稀歔阿, 在 2011 年時 Leslie Nelison 最後在睡夢中去逝, 不然他應該會對馬皇被人稱為 Bumbler 有所感觸而發言也說不定.

3. Johnny Bravo

很多人應該有看過下面這張圖, 但對這個角色並不了解, Johnny Bravo 是個很重視外表的超級大帥哥, 總是認為自己是受到所有女孩子歡迎的人, 總是留著貓王的頭髮, 成天瞎攪豁的一個 "另類英雄", 但事實上是取樣 "Dumb Blonde" 的男性角色, 除了馬皇性向跟 Johnny Bravo 不一樣外, 不然相似指數一定可以到 95%.

Free Vector johnny bravo 017


同場加映 Johnny Bravo 的 I am too Sexy, 會不會覺得跟當今皇上有點神似呢?


看完這個, 有沒有對 Bumbler 更有些正面與悲壯的認知呢?

2012年11月14日 星期三

影響網路速度的原因不只 80 種, 但知道最真實的方法只有一種

[前言] 寫這篇文章前, 我先跟 circle.tw 的編輯告解, 因為當時他們找我時, 我說要寫一篇不同的觀點文章, 就是這一篇, 因此想說多搜集一點資料再來寫, 但當看到昨天 "NCC發言人虞孝成:影響網速原因有80個 台網速並不差" 這篇文章後, 我覺得已經不能再拖了, 不然又是三四個月又過去了.

小弟不才, 雖然沒辦法像許多人把事情說得天花亂墜, 但至少勉強有一個專才, 就是高有效性與效能調校, 而我知道這是一個看起來簡單, 但事實上相當複雜的事, 尤其最近討論的 "網路效率" 的事, 就職業經驗知道這件事, 事實上並沒有那麼簡單.

說到網路, 大家很喜歡拿 ISO 的 OSI 七層來討論, 事實上網路在實作上, 並沒有真的切割到如此 "mutually exclusive" 的七層, 但換個觀點, 網路也不只有七層, 甚至切割下去是相當多層, 想要知道一件事的效能瓶頸, 要了解每一個層面的效率極限, 而這個環節比想像中還要複雜.

但再複雜, 身為一個工程師不可能不會去想要解決與挑戰, 甚至實務上不是只有在那邊亂想亂猜, 要去一層層的建立每一段的 "Monitor Agent" 監看系統, 然後將之串起來, 慢慢的發現問題在那邊去解決, 只是就經驗來看, 真正的問題往往發生在沒有顧及到的層面, 因為若有注意到的話自然會去解決, 但問題還是發生在環節內, 只要再去切割更細就好, 而為了避免有環節沒考慮到, 最重要的監看系統就是: "事實結果" 的資料搜集, 也就是從上到下的整段使用記錄.

網路效率真的問題很複雜, 事實上我在三個月前是想幫政府說話, 因為有些問題不是政府能夠解決的, 須要財團與使用者大家一起努力, 但最近看到政府與財團出面的一昧指責使用者, 我還真不知道這個戲碼到底在演甚麼?

為了來了解台灣網路速度為甚麼會這樣, 我們來做個大項目, 及小項目的切割好了, 至少來做個 Divided and Conquered 的了解, 讓大家知道問題點:

大項1. 使用者端電腦: 主要的子項目有瀏灠器, 作業系統, 硬體設備, 執行環境.
大項2. 使用者端網路: 包含使用者家中的環境, 大樓的環境, 到局端的設備.
大項3. 局端到ISP: 使用者到基地台, 基地台到 ISP, 或是中繼站到 ISP之間的環境.
大項4. ISP到伺服器:  ISP 之間的串接, ISP 的設備, 最後到的 Server連結.
大項5. 伺服器端的電腦: 也包含網路設備, 伺服器應體, 作業系統及應用程式與專用程式.
大項6. 背後串接的系統: 系統背後之資料庫, API 之間的串接, 硬體之間的串接

這大項中大約每一個有 3~5 個小項, 每一個小項大約有 5~8 個條目, 這 5 個條目中要注意到的 Monitor Point 監控點有 10~20 個, 因此真的要找到問題的話, 要注意的地方大約有 250~350 個原因, 這還不包含每一個模組內部所使用的物件.

因此大家可以知道要找到問題的原因是沒這麼簡單, 只是若問題無法解決, 那要網管做甚麼, 那要效能調校做甚麼, 我當然就沒工作可以養家活口, 畢竟這是個專業, 但因為專業就拿來嚇人是不道德的, 畢竟事實就是事實.

即使大家最熟悉的瀏灠器, 這其中須要解決的問題就很多了, 包含那種瀏灠器, 那種版本, 有用那些外掛, 有那些設定, 其中外掛的項目可能就不只 10 種了, 更何況去確認真正的問題細節, 而網路設備的規格數十項, 每一項都有不只一項的細節, 一個有實務經驗的網管/系統調校者知道魔鬼就是在細節中, 想要靠一張嘴解決問題雖然說是誰都可以做, 但裏面的技術是相當迷人的.. (嗯, 我扯遠了~~~)

雖然可能只有訓練有素的狗才能夠嗅出問題點在那, 但問題點是大家都可以感覺得到, 尤其這是網路的真實面, 因為網路上的所有行為都有 "原始記錄" :

"網路的真實就是可以搜集最原始的資料去分析來去看真實面, 而不只是靠其他的 Benchmark 基準來去說就算的!"

也就說即使不要管這些不只 80 種而是超過 200 種的原因, 還是有方法知道結果, 而這結果更不須要只是靠 "模擬" 去檢驗, 因為網路上的 Log 早就記錄出最真實的數字, 可以計算出最真實的效率與效能, 因為他就是使用者在使用的真實, 而若這些數字都不可信的話, 你硬是要用你的 "模擬測驗" 來證明你就是很厲害, 我還真的不知道原來 "模擬" 可以 "凌駕真實" 阿.

因此我要在這邊讚揚虞發言人一下, 畢竟他已經是這陣子而言, 說話最接近真實的人了, 看過報告就知道這問題沒那麼單純, 只可惜他不是第一線的工程師, 應該也沒有這方面的實務經驗, 尤其他的本職是做商業決策, 投資政策的專家, 不是網路效率調校, 不然應該知道更多的細節在裏面, 能夠知道問題在那邊.

唯一他弄錯的就是拋棄 "實際資料" 而相信 "模擬運作資料", 認為國外一家公司的千億筆乘上千億筆真實使用者記錄是不夠好的, 而去更相信可能百萬次不到的測試結果, 認為 "台灣公正單位測試結果" 就推論說 "台灣網路表現比起國際並不差!".

所以我在這邊也更應該讚揚 "Akamai" 能夠定期公布這些資料, 去真實的了解各國的網路狀況, 這數字唯一的偏差就是這些資料會偏向國際性的服務, 而缺乏國內的流量, 因為 Akamai 的服務主要是像 Microsoft, Apple 這類的跨國企業, 區域性的廠商使用不多, 但這個倒是每個國家都一樣, 因此說是偏差很大也不盡然, 但就像我常說的: "任何資料都有偏差, 但你要知道如何使用他".

因此就這種資料分析的確可以知道問題點不是只有電信業者, 也不見得只有 ISP 業者, 這問題還很多, 只是這樣寫下去, 就寫不完了, 因此靜待下回分解... (若有下回的話)

[PS] 感謝林靖堂先生願意讓我使用虞先生的照片, 我覺得這張照得很好阿...

[PPS] 若想要更進一步了解 Akamai, 請洽併力科技.

2012年11月10日 星期六

台灣媒體進網路版的大絕: 無窮盡的分頁

大概是在 2008~2009 年開始吧, 也大約是台灣媒體開始認真面對網路時, 原本這些媒體對網路是嗤之以鼻的, 但沒多久, 即使是電視新聞也不敢沒有網路版, 而報紙可是在更久之前早就已機攻城掠地了, 這也是當時明日報對網路最大的貢獻之一.

雖然這樣說, 賣紙本出版品的雜誌說要網路化在即使是流程上是更簡單, 但在之前是沒有太多的危機意識下,  網路的發展反而是慢很多的, 其中最主要也是廣告金主的關係, 尤其廣告主沒有想要在網路刊登的情形下, 雜誌網路版的曝光幾乎是用送的, 此時要求平面雜誌要多認真去面對網路也不太可能.

雖然在歐美, 網路的廣告比重越來越高, 再加上發行成本的考量, 許多雜誌慢慢網路化, 即使沒有真的把實體收掉, 但網路經營可是一點都不輕乎, 甚至大家早就預期平面雜誌廣告比重越來越低, 沒有網路可是活不下去的, 但那時的台灣雜誌界可是沒人認真理這回事, 認為這是國外, 不是台灣.

但是這兩三年就完全不一樣了, 當廣告主開始說要在網路投放廣告的時候, 雜誌出版商開始緊張了, 那時他們對網路媒體認知只是種導購, 是種兼賣外快的事, 重點還是訂閱戶, 跟本沒想過要好好經營時, 但當廣告主有新的要求: 流量, 點閱數, 訪客, 排名時, 這些事實上的網路經營須要時間的累積時, 他們一點都不擔心, 因為他們認為自己有如此好的內容沒有拼不過的道理, 網路內容對他們而言是真的太輕薄了.

只是當他們進來寫作與經營時發現, 網路的讀者取向是完全不一樣, 網路閱讀是以 400~800 字為主, 這跟雜誌動輒上千字的文章是不同的取向, 閱讀的方式也是差很多的, 加上台灣廣告主還沒以真的去稽核 Click Through, 甚至算 CPA 時, 真的要靠曝光 CPM 來計算時, 這些雜誌社經營主就很商腦筋的, 畢竟經營須要經驗, 寫作須要經驗, 這些都不是一時三刻可以搞定.

此時, 某個雜誌社老版注意到業主要求的是排名與流量時, 問了下面的人, 如何能夠短時間的提高排名與瀏覽數, 下面的回答: 就多分個幾頁阿, 讓使用者多點幾次才能看完, 不只增加點閱數還可以提升排名, 那時那個雜誌社的網站就嘗試著把原本上千字的文章, 分成幾百字一頁, 此時發現不只點閱數增高, 網頁數也增多了, 也解決寫作者不習慣網路文字的問題.

當然其他雜誌也看到了, 因此也跟進了, 把許多原本不須要分頁的東西, 就切成了好幾頁, 此時廣告便多了, 也更可以把剩下的版面放廣告, 還真的是一舉數得阿, 因此, 台灣的網路雜誌就開始了無窮盡的分頁時代........

我們來檢視一下幾個流量較大的網路雜誌, 有那些有分頁的, 這些雜誌的內文面積與整個網頁的面積占比好了, 會選這幾個當然是流量要夠大, 但也有幾個並沒有分頁, 我們就不去計算了, 事實上這個內文面積本並不是最好的指標, 應該是文字內容比, 以及文字的輕薄化, 只是這個很難量化, 我們在這邊不去看, 把這種質化的交給別人來檢視.

很驚人的數字是我們取樣了五個雜誌, 找出最近一篇有分頁的內文第二頁來計算, 看看整個 Pixels 的比例, 發現天下居然只有 12 % 接近十分之一的版面是內文, 而表現最好的遠見跟商業週刊, 也勉強過 20% 五分之一, 也就是說, 大家看網路雜誌中的版面, 有八成到九成都不是內文, 雖然並不說都是廣告, 因為看得出來不少都是版權宣告及集團內雜誌的導覽, 而討論, 延伸閱讀更是沒有幾家有.

雖然說台灣是如此, 我們去看國外幾個著名媒體好了, 說不定是一樣糟糕, 但此時更證明我們的猜想, "國外雜誌媒體很少有在分頁的", 即使是幾千字也是一樣一頁, 因此內文占比自然很高, 無論是經濟學人, Nature, Wired, BBC 等, 都是以內文為主的版面, 勉強找到 New York Times 有在分頁的, 但算一下是 35%, 跟天下比來足足差了 3 倍.

那國外雜誌是如何增加流量的呢? 答案很簡單, 就是創造好的內容, 經營好的社群討論, 在這種要求下, 分頁只是對讀者一種 "騷擾", 頂多是在下面的留言與討論串做分頁, 本文內容是沒有在分頁的.

通常內容的分頁是存在形像廣告, 因為固定的版型下為了不改變讀者的視覺, 分頁是必然的, 但就文章而言, 本來就是獨立可以存在的網頁並不會去分頁, 不然就不須要設計捲輪了 (這句話一點關係也沒有), 但若分頁是為了讓使用者點擊數增多, 網頁數提高, 瀏量提升, 排名提高, 那可以說是完全本末倒置了.

的確從分頁這問題來看真的是枝微末節, 但也可以看到台灣經營者的盲點, 只看到廣告主沒看到使用者, 更何況真正的問題是內容的問題, 經營的問題, 但是這邊講也講不完, 就不講了.

2012年11月7日 星期三

利用語意網路來做網群導流

雖然早就有人說 (至少我說), Semantic Web 語意網路是 Web 3.0, 也是 SEO 3.0 的主軸, 但這是個想像, 畢竟真的要做到, 還有很多基礎功夫要去建設, 且從建設到實作實用, 還真的須要一段很長的路要走.


weblog 計劃 (目前中文未定) 大概就是這種目標的實作, 真正的精神有幾項:

1. 建立好的導讀系統, 且這個是可以跨網站的, 甚至是可以特定在一個, 或一群網站.
2. 用導讀系統取代網站連結, 產生真正的使用者點擊流量.
3. 找到對的語意關連, 用對的關鍵字來產生對的錨定文字 (Anchor Text).
4. 讓網站之間的連結活化, 不再只是一個固定不變的連結.

當然為甚麼要做這件事, 說起來還真須要對 SEO 有一定的經驗才知道為甚麼是重點, 但即使不管是否是為了 SEO, 就為了 UX/UEO 這件事情本來就是該做的.

畢竟我一直反對為了爭取流量而無限上綱的 SEO, 這次就剛好是一個很不錯的實驗, 網站的連結必須要是有意義, 而為了連結而連結, 沒有流量, 一成不變的網址在未來的 SEO 是最糟糕的事, 就像是上一篇 Weblog 所說的, 重點不是在連結數, 而是連結網頁數, 這個在新版的 Webmaster Tools 就可以實證, 而流量這件事肯定在不久以後就會慢慢被實用出來.

而下面就是 weblog 計畫實作的例子:


這個是在網點計劃中計算 相機app SEO 資料的網頁, 而若要把這網頁導到 punapp.com 的話, 算出來最有價值的大概就是 文青相機 這篇, 事實上這種事在 CPC 的 Google Adsense 早就實作出來了, 只是要如何套用在網站上實用, 也是很重要的.

這系統原本是為了 EC 電子商務所開發的, 在很久以前 (夠久了), 我在博客來時就一直想實作, 無奈那時候對語意網路, 文字探勘的了解, 離真的做出來所須要的經驗還不足, 而這段時間慢慢對 SEO 了解後, 發現這一塊也是相當重要的, 因此在 "網點" 建立後, 接著就把 "網致?" 做出來, 還真的須要一步步的去建立這經驗, 回想起來若當時沒做過 "部觀門", "宅度計" 等等的經驗, 還真的不見得做得好的.

當然目前系統離我真的希望算得夠準夠好是不夠的, 畢竟語意網路的建設與展開實用還真的有一大段路要走, 現在的進程而言, 大概就登陸月球來比擬的話, 目前才剛剛確認火箭可以發射而已吧, 當然其中有一大部份是我自己個人資源的有限, 不然要做得更好不是問題.

做網站的人很多, 但真的會去了解 SEO 的人就要打折了, 會去利用 Webmaster Tools 去解決問題的就可能只剩 5%~20% 的人, 再下去能夠真的對這些資訊有足夠了解操作與應用的, 又是不到其中 5%~20%, 但真的要去開發 API 與系統還真的須要技術人員, 只是台灣目前在 "創業風潮" 中, 太多人把精神放在創業上面, 真的認真去對待技術人員或真的有去開發的人已經越來越少, 這才是我最擔心的吧.

2012年11月5日 星期一

weblog, "網智系統" 開始運作測試

大家還記得我在兩個月前寫了一篇 "如何用網頁到網頁的延伸閱讀, 取代網站的交互連結" 的文章嗎?
裏面談到兩個可能的發展性:

1. 共通 Tag: 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是若是能夠有限制的使用會是很好的東西, 但要實作起來也是要有技巧去達成.

2. 跨站延伸閱讀: 這個也就是 weblog 系統的目標, 透過這種方式, 不只能夠幫助到讀者, 並能夠兼具導流與 SEO 的效果.

雖然這個聽起來還真沒甚麼, 我就來大概解釋一下:

每一個使用 Webmaster Tools (網站管理者工具) 的人, 應該都知道兩件看起來很重要, 但卻很難到好的兩件事:

1. 外部連結, 而且是連到更多的深入內頁 (Deep Link), 且不同的連結來自不同網站.

2. 錨定文字, 而且是對關鍵字, 以及多樣的錨定文字連到正確的網頁.

上面這兩個問題, 可以說許多有注意到 SEO 的內容經營者最大的痛, 用下面兩張圖就可以解釋:




在 Webmaster Tools 的圖左 外部連結狀態中, 可以看到有很多連結連到某網站, 前三個好友網站貢獻了 4 萬 5 千個連結, 但真正有效的頁數只有 11 個, 還不如一個 blogspot 部落格系統貢獻的 12 個網頁數, 在圖右的錨定文字中第一個不用說是網站名稱, 除了第二個幫忙做連結的, 最有意義的錨定文字不是登入就是註冊, 可以看得出來大部份的錨定文字是無效的.

在外部連結中, 最好的經營方式是使用者社群經營以及好的網站品牌經營, 雖然說我們知道大部份的情況不是 Soft Link (軟連結), 就是 No Follow (不延伸), 但只要夠認真, 一定還是可以 Earn (賺) 到自己努力過的成果.

當然使用者社群與品牌經營也有流量式的, 有 SEO 式的, 有時不應該過於去執著與區分, 反而忘了經營的精神, 但更重要的是你知道你做這件事所帶來的效益為何, 不要做了許多發現是對自己所想要的是完全沒有效.

外部連結困難點是即使你透過交換連結賺進上萬數萬個連結, 但事實上能夠連到的是只有一頁首頁或個位數, 現在搜尋引擎很了解交換連結與交換農場的情境, 因此連結數已經不再是重點, 而是連結的不同數 (Distinct Link) 才是重點.

畢竟使用連結農場或到處 Spam 留下連結說要一直換 Link 是不太可能的, 雖然國外也有一堆 "機器人" 去用不同的連結去輸入到別人的系統, 但這些都是不好的 (黑帽), 應該把網站經營之間的廣告依照語意網路去計算出真正有意義的關聯, 讓使用者真的因為有用而點擊, 而不再只是報表中千萬分之一的點擊數才是對的.

不可否認的若這樣的 "導讀" 是透過 "編輯" 去做的話是最準確且最有價值, 當然前題是這個編輯有足夠的知識與經驗, 甚至能力才能做得好, 而好的編輯系統甚至可以去幫忙編者輕易的拉動連結做為導讀, 但這個說起來簡單但做起來不簡單, 畢竟這些事都是很耗時間與精力的, 無論是你有沒有能力.

OK, 說到這邊, 好東西來了, 花了我七年來的經驗, 五年來的寫作, 三年來的資料搜集, 一年來的規劃, 終於寫出這個好物, 就是 weblog 網智/往至系統, 簡而言之就是利用語意網路與資料探勘與機器人所組合出來的 "網站導流系統", 目的就是為了 "利用網頁到網頁的延伸閱讀, 取代網站的交互連結", 然後提升 "正確的錨定文字, 連結到不同的內文頁".

目前這還只是 Beta 版 (也是永遠 beta 版機會很高), 因為要能夠找到更有意義的文章, 用更有價值的連結文字, 用更好用的 UI 讓使用者去用, 這條路是無止盡的, 畢竟語意網路的分析的好壞取決於資料的累積, 必須靠時間的累積與投入才會做得更好.

因此, 在這邊徵求兩件事:


1. 有興趣一起開發的人
2. 有興趣使用的網站

目前網站只支援 PHP 且可以進行修改的, 但若隨著開發人員的協助, 說不定可以適用在更多的系統,
所以若想要真的了解 Data Mining 與 Semantic Web 運作的, 歡迎一起來玩.

2012年11月2日 星期五

Flat Rate, 固定費率, 吃到飽背後的意義 (改)

在寫了上一篇文章 Flat Rate, 固定費率, 吃到飽背後的意義, 說到有關最近很熱的 3G/3.5G 吃到飽的問題, 的確很多人認為有些人做得過份了點, 但事實上我回頭來看, 這篇少寫了幾點很重要的問題, 其中包含 邱煜庭 說的行動資料傳輸本質上跟固網差別不能單以集縮比來看這是真的, 所以我這篇的確有茫點寫的不好, 所以來趕緊補上這篇.

畢竟無線通訊的頻寬怎去切割, 總是有限的, 即使你說不是 FDMA 而是 CDMA, 一定的頻寬是有極限的, 除非去換個 Frequency 頻寬才有可能, 也就是 4G 或 LTE 的可能性, 這也是跟固網不一樣多拉幾條線, 想加多少就多少, 只是成本與空間的問題.

不會因為加基地台就增加, 這些討論串可以看

https://www.facebook.com/genehong/posts/489191571114763

只是這指的是同一個 Cell 中的或同一地區的問題, 有時 3.5G 最大的問題是在:

1. 覆蓋率還是有問題, 尤其是對於像捷運某些地段常有問題
2. 局端之間的連線與出口端的速度不夠 (出國或跨 ISP) , 畢竟這個走得是有線, 若瓶頸出在這邊肯定不是頻譜不足的問題

那一篇的確是沒說到好的改善方案, 畢竟我原意並沒有想要寫出這點, 在某方面是有感而發, 但相對的其中 Ken Hsu 所說的

對於吃到飽的費率,解決的方法可以學習香港經驗(至少我今年去兩次都很滿意)
同樣一千多元NTD/月的費率:
1.限制每個人用量到達一定的時候會降級速率,避免少數人狂用
2.各地大量使用WIFI 彌補"頻譜"造成頻寬不足
3.一般通話免費通話可以高達83小時,減少使用通訊軟體
這種話題我覺得不用設限在於Mobile Data Transmit 上,畢竟就是配套在配套去補足不足

這樣果然是他山之石的好方案.

事實上有時基礎建設包含 QoS (Quality of Service) 的控制, 說一個社區因為一兩個使用者吃掉大量頻寬, 而沒有去想說事實上這是很基礎某些頻寬限制就可以做到, 除非是完全沒做或集縮比算錯, 而真正會影響網路效率的不是每月的總量, 而是瞬時間的速度, 或者是一段時間的流量才會真的影響, 只是那些人若是被限制頻寬, 應該掛掉的是自己而不是別人吧?

就像是我有時因為忘記把 Steam 的 update 關起來, 而讓自己網路延遲才趕緊關起來, 我相信沒有人會很很樂意這樣使用網路, .....

目前在商言商, 手機上網吃到飽價格一直降到 500 元以下, 這若不是 OP 商算錯價錢, 不然就是為了賺錢犧牲品質, 這才可能是問題, 畢竟砍頭的生意有人做, 賠錢的生意沒人做, 比較實際的應該反而是要去監督電信公司的品質, 而不是純脆拿價位來開刀.

畢竟甚麼是合理使用說不定只是個傳說, 理論上應該是鼓勵大家用吧才是重點, 而那些浪費頻寬的解決方法有很多, 但絕不是只有 "取消吃到飽" 這個方案是最好該被提出來的, 因為若是政府要求品質的話, 廠商一定會有很多配套措施可以走.

2012年11月1日 星期四

Flat Rate, 固定費率, 吃到飽背後的意義

以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言.

前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這件事立法變成禁止事項, 真的是讓網路回到過去的開到車阿....

在 20 年前 (199X), 有人問我, 網路經濟那時後會起來, 我跟他說, 當人沒有去區分 "上線" 與 "離線" 時, 網路才真的會產生經濟市場, 不然網路經濟是很容易崩潰的, 即使不是全部的人都這樣想, 至少要 40% 以上的人, 但甚麼是 "沒有去區分上線與離線" 呢?

在還沒有 ADSL 之前, 大部份的人都是用電話線撥號上網, 而其中費用有兩個, 一個是線路費一個是 ISP 的費用, 早期 ISP 還是以量計價, 而線路費更不用說了, 對於會 24 小時掛網的人, 不是網路工作者就是網路中毒者, 畢竟掛下去一個月說不定是好幾千元, 因此大家都會去知道那時是 "上線", 那時是 "離線", 就像是電話一樣, 你不會說我不須要用就拔掉, 須要用再插上插頭.

而要讓使用者不會因為使不使用, 或者是使用多少而去擔心或改變行為時, 必須要有一個前提, 就是 "Flat Rate", 也就是 "固定費率", 在這種固定費率下, 你不用擔心使用量而可以在網路上面生活, 所以網路要發展, 所謂最大的前提就是 "Flat Rate", 簡而言之就是 "吃到飽".

因此在還沒有這個網路經濟市場出現在之前, 所有的網路都是在 "預想" 或者是 "幻想" 狀態, 所以當 2000 年的網路泡沫化我並不意外, 但而當 "Flat Rate" 的使用者超過 40% 時, 網路就真的成為一個 "市場", 依現在而言, 應該只有少數人在家上網不是使用固定費率的吧.

當你使用網路時你在擔心每過一分鐘要花多少錢的時候, 你還會在網路上下標嗎, 你還會在網路上採購嗎? 你還會在網路上交友玩遊戲嗎? 即使再便宜, 你一定會想說能離線就離線, 當不用的時候就把信箱關閉, 電話線拔掉, 門鈴切電, 此時你不只發現別人無法打給你, 你也無法找到人時, 這個系統就不會再有人用了.

雖然我們知道網路用的是 IP Switch 不是 Circuit Switch, 本身不會有專用 (Dedicated) 的問題, 因此建設了之後有時可以分配給其他用途, 但這種建設不是只是蓋到夠用就好, 而是必須建設到讓大家都可以方便且輕易使用, 無付擔的使用, 所以一個好的建設到最後往往都是 Flat Rate 的原因如此.

這種 Flat Rate 固定費率取決於基礎建設的完善與否, 甚至在某方面是種指標, 在建設 ISP (Internet Service Provide) 時, 有一個很重要的概念, 就是集縮比 (Concentration Rate), 我們知道很多事情都是規模經濟, 使用者越多會越便宜, 其中不是因為所謂的初始成本遠高過變動成本, 而是在集縮比的使用.

舉個例子來說, 你若在某個社區建設一條 100G 的光纖, 若你答應每一個人的頻寬是 100M, 請問你可以賣幾個人? 正常的算式是:

100G=100*1000M=100000M
100000M/100M=1000(人)

依上面的算式你只能賣給 1000 人, 事實上不然, 因為不會同時這 1000 人都在用, 就像是飛機訂票一樣, 總是會超賣 (Over Booking), 因為就機率而言一定會有人趕不上 Check-In, 若因此沒考慮到這點不敢超賣, 只會讓原本可以搭上飛機的人褡不上, 網路也是一樣.

也就是說雖然每個人都可以用 100M, 但事實上不會永遠每一個人都用 100M, 甚至平常有人用個 20M~30M 早就超過遠端伺服器的使用了, 當然這有很多很多前提, 但整體而言, 就存在一個比例是你可以賣 3000 人, 但事實上 99.9% 的時間使用量不超過 100G (或是 70%), 若是這種情型下, 你沒去操作集縮比是很浪費的行為, 且這集縮比會因為使用者越多比例越高.

就像是現在 Google 免費空間是 10GB, 若是有 1 億人使用代表我們要準備 100 億GB 的空間嗎? 事實上說不定一千萬 GB 都不須要, 這就是集縮比, 但一個好的基礎建設, 好的工程師, 要隨時能夠了解使用者的使用狀況以及基礎建設的狀況, 讓每一個人都用得盡興是最重要的, 若沒做到, 可以說是明顯有人失職.

這是最合理的想法, 但事實上並不是每一個工程師, 每一個主事者都能對使用者與基礎建設能夠掌握的好, 尤其是在公家機關的狀況看到的不是這樣, 他們最怕的是主管機關或主事者或是媒體說話, 因此最後我看到許多單位對網管的要求是: "最好都不要有人用, 尤其是長官要用的時候他能夠盡情享受", 即使真的建設不夠好, 只要長官感覺好就可以了, 這種案例我看不只一個, 可以說是好幾打.

嗯, 扯遠了, 但 "Flat Rate" 有時候就像是個魔咒一樣, 是個起火點, 也是個心理障礙, 當你不再擔心使用它是個消耗品之後, 你才會真的使用它, 就像是 Mobile Data Transmit  行動資料傳輸一樣, 在 2000 年大家再喊 Triple-Play 時, 無論是 WAP, imode, 各式通訊方式與服務傾巢而出時, 我們都知道行動資料通訊的 Killer 決勝點不是上面的項目, 而是當 Flat Rate 吃到飽到合理價位來臨的時候, 當這種方式變成生活一環, 而不是想用再打開, 而是隨時可以 Push 通知你的時候, 這樣的手機上網時代才是真正來臨.

所以在 10 年前有人問我, 手機上網的那個服務那時能夠普及讓大家所用, 答案就真的很簡單阿, 想都不用想.

只是我蠻意外很多人不知道這個很重要的概念, 會在此時提出取消 Flat Rate 來改善傳輸品質, 這還真的有點像道路太窄, 交通太亂, 提出最簡單解決的方式就是叫大家不要出門一樣, 不只這樣是治標不治本, 應該叫做掩耳盜鈴, 因為解決這問題應該是把基礎建設弄好, 不是叫大家不要用, 把路讓給大官來巡視時, 把流量流給測量時用, 此時就可以肯定是百分之百通暢阿..... 這果然還是只有政府機關單位才想得出來的答案阿.

2012年9月28日 星期五

Facebook 臉書六年下來....

雖然說我花在噗浪的總時數是超過臉書的, 但事實上我 Plurk 是 2008-6-10 加入的, 而臉書卻是在 2006-9-28 六年前的今天加入的.

當時會加入是想要了解臉書這系統的狀況, 而那時候算是第一批讓非美國大學生註冊的開放測試, 也因此在沒有朋友的情型下, 第一個好友是遲至 2007-6-4 才有人建立關係, 所以這 9 個月都沒甚麼動作吧.

因此仔細想想這六年下來我臉書的活動可以分幾個時期, 就像右邊的圖片, 來翻翻看自己的歷史吧:

1. 一個人的日子 (2006~2007): 應該是在台灣生活中最早註冊的吧, 所以大概有 9個月時間都只有一個人.

2. 忽略期 (2007~2009): 有時候臉書會寄信過來說有誰加入, 所以就同意建立好友這樣, 此時台灣已經有越來越多人在玩, 但事實上我卻是在 2008 年開始玩噗浪, 因此臉書就被我晾在一旁吧.

3. 遊戲期 (2009~2010): 有朋友跟我講說 FB 的遊戲可以玩玩看, 因此我就真的玩玩看了, 大概一年間玩了餐城, Camelot, 等等的遊戲, 只是現在已經完全沒在玩了, 真慘....

4. 重啟期 (2010~2011): 在不那麼熱衷玩遊戲之後, 臉書的粉絲團與社團也慢慢成熟了, 也開了幾個粉絲團來玩, 以及工作的須要也開始了解與操作, 但以現在的程度來看, 還真的初學而已...

5. 照片打卡期 (2010~): 2010-4-17 第一次上傳照片, 但並沒有打算把臉書當相簿使用, 2010-8-14 第一次用 N900 上傳照片, 而一開始就從 Foursquare 打卡, 一直到 2011 年臉書推出打卡功能我會交互使用, 只是到現在還是以 4sq 為主.

6. 開始使用期 (2011~): 沒錯, 事實上我一直認為我嚴格說是在 2011 年後才再開始認真面對臉書, 甚至是 G+ 我已經開始使用後我才以 G+ 的努力來看臉書, 所以以一個這麼早開始用臉書的人, 確又是這麼晚開始使用臉書, 還真奇怪阿.

當然我很清楚一件事, 行銷與業務這件事是最麻煩的是原則與方法大家都了解, 但我們知道行銷業務真正的高手與大師是對他所從事的領域有充份的了解與實務經驗, 而不只是對行銷業務本身而已, 也就是說換了一個產業就是完全不同的情境了, 因此若你聽到有甚麼行銷大師大部份都可以只信三成, 因為真正的困難點是你對產業的了解與其人際關係, 而不只是 "meme".

而社群經營也是一樣, 你即使有再多社群經營的經驗, 但換一種媒體與媒質就完全不一樣了, 雖然你之前的經驗會讓你有更多的加分, 但若既有的關係與社群不能為用的話, 很多事情幾乎是從頭開始, 因為每一種社群都有自己的情境與 "術語", 加上族群與對像的差異, 若沒去參與是很難了解, 更惶論說要去 "經營", 因此那些粉絲團人數很少的 "臉書講師/大師", 你可以直接無視他/她, 雖然不代表他對社群經營不了解, 只是說他對臉書並沒有足夠的經驗去掌握罷了.

上面那兩段是廢話了, 畢竟我知道我現在只是初學者, 我更確認我對臉書不夠了解阿... 我不會重蹈之前的錯誤, 倚老賣老是最不可取的, 但時間的累積總是最好的學習, 只是前提在於你花多少心力, ...


而臉書對我到底是甚麼呢? 我自己也是在摸索, 只是在這六年後的今天來檢視一下自己罷了.

(最上圖的原始來源還真難找阿, Google 的以圖找圖還真的找到一大堆 Facebook 上的人臉阿)

2012年9月24日 星期一

如何用網頁到網頁的延伸閱讀, 取代網站的交互連結

之前寫過一篇文章, 說到甚麼是 Spam 或者甚麼不是 Spam 的判斷點不在於數量與方法, 而是取決於心態, 也就是說這樣的文章內容與連結, 是你有沒有花心思, 記得在四年前寫了一篇 "寫部落格前的幾點反思 (反SEO的該看與不該看)", 講說五點如何判斷黑帽與白帽 SEO (Search Engine Optimization 搜尋引擎最佳化) 的差別, 大家可以看一下:

1. 你自己以後會不會看
2. 這是不是給人看的
3. 到底是誰來看?
4. 沒必要看到的人
5. 部落格的價值不是有多少人看, 而是真正關心你的人或你關心的人有沒有在看


而好的 SEO 的差別也是在這邊, 也就是 "能夠真的幫助讀者的SEO才是好的SEO".

有人曾經問我: 在 SEO 的領域中, 我期望做到甚麼樣的目標, 我當時是說, 幫助認真做內容的人完善好的介面與功能, 並且做到最基本的 SEO, 讓那些想靠技巧而不是靠內容來賺取 SEO 的人更困難達到, 讓讀者更輕易的閱讀與找到想要的資訊, 這就是在 SEO 中我短期的目標.

的確即使我已經擔任 SEO 公司的 SEO 顧問 (好像繞口令), 但我也一直看國外的網站以及書, 而最近在看完 O'Reilly 的兩本 SEO 書, 一本是 The Art of SEO, 以及 SEO Warrior 時, 想到依我現在的語意網路計劃已經可以做 "如何用網頁到網頁的延伸閱讀, 取代網站的交互連結" 這件事了.

我們知道在早期的部落格, 有一個通訊協定可以透過 Ping 來做 Backlink 逆向連結的引用通知, 而大家的文章也很樂意去連結別人並發出引用通知, 只是這個功能被黑帽 SEO 大量濫用後失去原有的意義, 所以最後大家也停用 Ping 了, 只是這種引用與被引用是對讀者與作者相當便利的功能, 可惜的是 Spammer 讓網路退步了..

而 Blogger 的 Blogspot 曾利用 Google 的優勢去利用搜尋引擎去建立 Backlink 反向連結來取代 Ping 的功能, 這也是不錯的方式, 只是這功能並不是所有網站或所有部落格都適用的.

事實上能夠提供讀者來作延伸閱讀也不只是 Ping 等 Tackback, 也包含 Tag 的使用, 尤其像是 Technorati 也提供跨站的 Tag, 雖然 Tag 的概念已經隨著時代成熟, 也取代了分類的概念, 但許多功能也隨著時代的改變而消失.

這些都是早期透過內容創作, 編輯與一些功能讓讀者與作者之間有進一步的互動, 雖然現在很多功能隨著 Facebook 臉書的覆蓋率達到一定的門檻後現在不是用 Twitter 就是用 FB 了, 雖然部落格已經退出引領風騷的角色時, 反而進一步的是內容網站該如何去建立社群.

而有時候不只是使用者有社群, 內容網站也有其社群, 而最近也慢慢出實作出以使用者閱讀為導向的 "內容社群", 其中有兩項:

1. 共通 Tag: Tag 一直是最直覺與最有效率的連結, 若是一個網站社群若能夠共用 Tag 會是相當有價值的系統, 畢竟 Tag 是最具有聚合力邏輯概念, 也是最常使用的延伸閱讀, 只是目前的 Tag 都只在站內居多, 若能夠把共同一起經營的網站的 Tag 連結與整合, 不只是對讀者是有幫助, 更能夠把已經來訪得來珍貴的讀者, 對經營有更有效的成果.

2. 跨站延伸閱讀: 並不是每一個系統都是有 Tag 系統的, 此時就必須要用語意網路去串連, 從 A 站的內容找到最合適的 B 站內容給讀者, 透過更精確的錨定文字與連結, 不只是讓讀者更輕易的閱讀及看到所有興趣的內容, 更是讓原本僵硬的網站交互連結變成每篇文章都有符合內容的 Deep Link (深層連結), 此時不只讓使用者經驗提升, 更能提高 SEO 效果.

最近把這兩個系統實作成一個服務, 並包成一種可以透過 include 的 XMP-RPC 的類 API, 只要用參數的方式說你要連到那一站, 系統就會依你的站的每一個內頁算出與這內容最合適的另一站網頁, 並包含圖片與錨定文字, 讓網站連結不只是唯一的連結或是唯一的錨定文字, 而是每一頁都有自己的連結與錨定文字, 讓網站的交互連結更有價值.

的確語意網路 Semantic Web 是未來讓讀者與內容進一步產生互動重要的技術, 只是要做到這方面, 不只有很多基礎建設要去完成, 更須要實作讓大家去了解, 這是一條很漫長的路的, 所以有興趣實作的歡迎來跟我一直讓這種資訊媒合更符合人性.

(圖為 Tackback 的 Icon)

2012年9月12日 星期三

IMHO, 這個部落格改名

人總應該是跟自己過去挑戰, 若你回頭看自己的文章, 覺得 "阿, 我以前寫得多好阿!" 此時代表的不是你曾經做過甚麼豐功偉業, 往往代表的是你這段時間一點進步也沒有~~

但這樣說也是過於以偏蓋全, 事實上人生活在這社會中, 還是有很多無奈的事情, 至少可以肯定的是隨著事情越來越多, 腦子已經被許多雜務占滿, 最後不只讓自己的思緒變亂, 眼光變窄, 也失去了作夢的能力, 甚至只剩下一次次的抱怨以及更多次想振作但失敗的經驗.

慢慢的, 你想要的漸漸被必要所取代, 對物品的評價跟著標籤上的售價一致, 不再是你真實從中獲得樂趣來衡量價值, 就像是看人的眼光是由他的薪水來判斷, 而不是他是否真的對社會有貢獻, 或者純是跟你的互動與感情.

最後剩下的, 只是靠你累積的不滿來建立優越感, 來證明 "阿, 你還是比社會大多人來得好阿~~", 就像是一直抱怨自己的薪水沒有增加, 卻不去質疑你的能力成長多少, 而從社會去獲得更高的交換價值, 卻是認定你的主管很糟, 老版是混蛋外, 不敢去跳脫這個框框.

是的, 這個社會有太多的不公平與不正義, 雖然不是因為你造成的, 但卻是由你參與建構出來的, 雖然行動是很困難的, 但很多改變都是從一點點一滴滴開始, 有時只是多關心一個人, 就可以造成很大的不同, 雖然我們無法建立甚麼完美的社會, 這名詞只是從政者或泛道德主義者架構出來的騙局, 我們還是可以往我們期望的社會去實現, 至少從自己的生活開始.

有時我們離革命越來越遠, 但越來越感受到革命的壓力與氛圍, 只是這種巨變要付出太多的代價, 無論是無產階級或資本家, 或者是中產階級也很難去說這樣的變化是對的, 或是不對的, 但當社會的層級越差越大, 階級的劃分也越來越明顯的時候, 比較擔心的是這種事遲早會發生.

當你認為自由已經被濫用而不須要再堅持時, 當你認為建設是必要而不須思考停下腳步時, 當你想要從穩定與團結尋求救生板而不是思考自己須要從自己改變時, 當你一直找到問題點卻不認為自己可以幫忙解決的時候, 當你以為成功創業是唯一生命的出路時, 當你以為看政論節目與去投票是最主要的社會責任的時候, 當你以為在PTT就可以展現正義的時候, ..... 這社會離大部份我們期望的越來越遠, 卻越接近既得利益者期望的社會越近.

雖然我也不知道怎樣做才能一針見血, 事實上我也認為這種事跟本不存在, 但不代表我不能做, 至少我可以肯定的去說, In My Humble Opinion, 我還是會想說, 我還是會想做, 那你呢?

2012年8月23日 星期四

若做 SEO 只是為了 SEO, 就不是好的 SEO

這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, 尤其是在很多人事物上.

不否認的 SEO/SEM (Search Engine Optimization/Search Engine Marketing) 這議題已經不知道被大家說到少次了, 且這話題比飛碟還更神奇, 就像是看過飛碟的人很少很少, 但大部份的人倒是可以說的頭頭是道, 好像他坐過很多次了, 而我也看不少這方面的從業人員, 頭銜掛著的是 "SEO 專員/專家" 的 SEO 操作者, 甚至不少靠 SEO 賺錢的, 但每次聽他講的話都讓我膽顫心驚.

而這不代表他不懂 SEO, 畢竟 SEO 是人人可以做, 只是做的好與壞罷了, 跟很多技術有一定的門檻不一樣, 會做跟不會做幾乎是一翻兩瞪眼, 但 SEO 就像是行銷一樣, 有時候做出來有成效不代表你做對, 甚至努力做時還不見得有立即效果時, 此時 "黑帽 SEO" 更容易在這領域 "騙" 到更多錢, 有時我還覺的這領域應該來學 "奈米" 一樣有個認證標章才對, 只是就經驗而論, 這樣說不定會被玩得更糟糕.

搜尋這領域可以說是最早的學科, 圖書館學就是了, 人類透過學習的方式去尋找知識, 找到解決問題的答案, 這問題可以是 "如何把好奇號送上火星" 這麼困難, 或只是像 "中午該要訂那家便當" 這問題一樣, 雖然這問題也是很難的, 有時不透過搜尋引擎去找資料是無法知道答案的, 或者是找到更好的選擇, 至少不是天天吃一樣的便當.

在操作 SEO 的人有時看到的是他公司的產品, 他網站的內容, 但有時卻是忘了使用者該如何找到他們才是真正的重點, 而不是這些死版的網頁, 畢竟網站不是做出來自嗨而已 (有時也是可以), 重點是要給人看, 有時要問的不是那些人要來看, 而是要知道的使用者的動機是甚麼, 畢竟任何內容, 任何產品都是解決問題, 滿足使用者的須求, 在 SEO 的操作中, 是為了要幫助搜尋引擎達成我們建立使用者與網站內容的橋樑, 因此這個橋樑不是我們要追求的目標, 而只是方法.

在這邊大概舉出幾個比較新的 SEO 觀點, 估且就叫做 SEO mk2, 不是 SEO 2.0, 事實上 SEO 3.0 都有人寫過了:

1. 使用者不只是要找答案, 而是要解決問題, 尤其是通常使用者只知道問題的情境而已, 跟本不知道答案: 很多人以為關鍵字是重點, 且通常在設定關鍵字時是以產品或內容為導向, 這往往是錯的, 在幫數位時代做 Web 200 時, 發現很多網站都是主打自己的產品與品牌, 但忘了使用者若是已經用品牌來搜尋, 跟本不須要做 SEO, 例如 Subway 要主打的不該是潛艇堡, 而是 "外送", 要讓使用者在找外送情境時找到你, 挖掘潛在客戶才是精瓍.

2. 網站的分析工具已經提供很多線索, 甚至有更多的外部工具可以參考, 不該只是亂猜: 不得不否認的網站經營者有時候離使用者很遠, 他眼中只有自己的東西, 有時更會忘記使用者, 這在認真經營自產品時不是壞事, 但使用者如何上門呢? 而網站已經有太多的工具, 從 Webmaster Tools, Log Analysis, 還有瀏灠器有很多 SEO 的外掛, 一個好的行銷人員若沒有使用或安裝這些 Plug-In, 幾乎是不及格的.

3. 我們要了解使用者的須求, 了解問題, 解決問題 (這好像是 Robots 的台詞): 若是做 SEO 只是做上面兩點, 那就真的是為了 SEO 而 SEO 了, 真正經營網站的人, 應該是透過使用者須求去創作出新的方法與答案去提供使用者參考, 包含產生對使用者有幫助的內容與專題, 提供別人的情境與使用狀況給其他找答案的人參考, 甚至透過這樣的須求調整自己產品與內容的方向, 畢竟一個網站的經營不是一廂情願, 要想辦法接近使用者, 不是離越來越遠.

4. 關鍵字本身是很雜亂的, 我們要透過共同點去聚焦: 雖然說最後大家還是習慣以關鍵字的排名來作檢視, 事實上再如何了解須求, 也不可能涵蓋所有的可能性, 因此最後能夠抓的只是一些大要與方向, 而這些方向就是使用者會去由上而下的聚焦與共同點, 例如須求, 作者, 環境, 而每一個產品本身都是很獨立的, 經營的了單一關鍵字與產品, 但往往會因為時間而失去使用者的關愛, 但有很多本質是不會變的, 嘗試著去作分類與因子分析, 會讓使用者不斷的透過搜尋引擎找上你的網站.

5. 主動的去接近使用者, 不是只靠搜尋引擎的幫忙而已, 去經營流量來源, 不是 SEO 而已: 事實上現在的 Search Engine 很努力的想辦法切近使用者, 會依不同的人, 不同的裝置, 不同的地點與時間, 不同的關係, 不同的語言提供不同的答案, 更重要的是不同的社群有不同的結果, 因此要善用不同的平台去導入流量, 跟使用者互動, 主動提供使用者答案, 而不該只是宣傳自己而已去獲得更大的受眾, 此時不只使用者與社群會更愛你, 搜尋引擎也是.

當然我們打開 SEO 的書, 教你的是如何做出對的內容格式, 讓搜尋引擎更愛你 (Search Engine Friendly), 因此教你的是如何做好 HTML, 下 meta-data, 弄好 alt, 等等的表面工夫, 雖然也會教你如何使用 SEO 的工具, 但畢竟 SEO 本身是個具有很強 Domain Know-How 才能做好, 無論是網站經營的方向還是 SEO 本身.

SEO 是網站經營的一個 Big Scope 大領域, 我們必須以網站經營的角度, 使用者的角度來看 SEO, 相對的用 SEO 也可以看到網站經營的樣貌, 因此若只努力行銷卻不忽略 SEO 是重要的一環, 或是用 SEO 技法去操作, 而不知道使用者與網站內容而去作連結, 都是很容易走錯路, 變成 SEO 只是為了 SEO, 這可以肯定不是個好的 SEO.

(圖就是米塞斯, 原句是要說, 做一個經濟學家不能只看經濟, 要從社會面相, 心理面相, 法律面相等等多元思考, SEO 也是一樣) 

(文章投到 circle.tw, 網址是 http://www.circle.tw/trend/seo-do-not-seo.html , 因為編輯關係多少不一樣, 而這邊保留原文)

2012年7月31日 星期二

企業部落格行銷競賽的設計與結果

部落客百傑若是跟之前最大的不一樣, 大概有一個是增加了一個 "企業部落格行銷競賽", 當初設計這個獎是有幾個面向:

1. 獎勵以部落客與部落格為行銷方式的公司或承辦單位, 且在這部份有優秀的成果.
2. 透過這樣的案例讓大家知道部落客/部落格行銷的好方式.
3. 讓廠商與部落客知道誰是好的公關公司或活動公司.
4. 從評審的方式讓大家了解如何評斷好的行銷案例.
5. 透過這次的競賽讓大家重新了解部落格經濟的價值.

雖然這是第一次主辦, 最後還是有十七件報名, 雖然不多, 但其中真的有很優秀的作品, 因此最後選了四件的佳作與優選, 雖然優選只有一個, 但這四個作品都是具有水準, 甚至超乎預期.

這次的評審是由下面幾個項目來評分的:


  • 社群影響力(20%)
是否能夠找到商品所對應的合適族群,找到對的社群影響力的人,發揮出足夠的效用,其中包含:文章數、點閱數、分享數等各種指標。
  • 效益轉換率(20%)
對業積或知名度是否經過此行銷有足夠的成長,包含:投入的成本以及最後統計結果的轉換率,並與之前作比較。
  • 內容成熟度(20%)
製作的內容是否適切社群與標的,是否讓社群能夠因此有所共鳴,包含:
各種社群管道的利用,各種媒質的呈現,以及與社群的互動是否切題得體。

  • 網路稽核力(20%)
能否利用網路的互動性與回饋性取得活動的效用,包含:其歷史及最終結果,
或是以多重指標如點閱數,回應數的取樣來做為稽核的基礎。

  • 報告完成度(20%)
對業主或對活動參與者是否有完善的文件做決策與協助,以及最後結案報告,是否能夠讓業主及負責人了解其成效。

看了上面這五點, 扣掉第五點外, 大家知道最重要的三點是:

1. 轉換率的高低
2. 網路稽核的能力
3. 內容的好壞

這三點基本上扣掉第三點, 前兩點基本上是 "網路行銷" 的精神, 也是網路行銷跟其他方式行銷不一樣的地方, 並且第一點的轉換率更是部落格行銷與其他網路行銷的差異.

轉換率在傳統行銷而言往往是必須透過抽樣, 二次資料等等的方式來取得, 但網路行銷是每一個環節都可以被知道與監督, 甚至對於只做網路行銷的公司, 可以 100% 的去得到所有顧客與消費者的行為, 因此要有好的稽核能力, 可以說是決定網路行銷的會做得好做得壞的第一個因素, 因為做得好可以再加碼, 若做得不夠好, 代表可以換個方式操作, 若是沒有能力去知道好壞, 可以說是像瞎人摸象一樣.

有了知道轉換率的狀況, 當然就可以知道整個流程的 ROI, 這也是部落客行銷的成功與失敗的關鍵, 也是跟其他行銷不一樣的地方, 其中包括: 朋友推薦取代明星代言, 口碑傳播取代大眾媒體, 社群經營取代單向宣傳的基本差異, 也就是重新回歸真正的消費者而不是只靠行銷去宣傳.

當然如何選擇好的社群, 好的工具與管道, 創作出好的內容與方式, 都是一個社群經營者必須了解與學習的工夫, 這也是跟其他行銷方式不一樣, 通常只要專心在 "內容" 及 "成本", 而網路行銷與部落格行銷是個長時間的奮戰, 不是把 "稿件" 交出去就可以了, 而是之後的經營.

這次獲得優勝的趨勢科技把上面這幾點做得相當好, 但最後獲勝的原因也是掌握到 "網路行銷" 是個長遠的路, 尤其這次是這四項作品中, 唯一一個內部經營的, 相較其他的佳作因為是代理商的關係, 多少還是有時程的關係, 但若這樣說是不公平的, 因為有內部人員知道如此經營是很不容易的, 來看這次的參賽者中, 除了趨勢科技外, 整體而言還是公關行銷公司表現的比內部單位經營來得優秀, 這也是我原本預期應該是場商與公關公司一起報名的原因, 畢竟要求公司內部公關或行銷的人對社群經營有概念真的是太難了.

最後恭喜癮科技/大人物的博客邦, ipeen網的紅谷資訊, 邊境數位跟趨勢科技, 希望明年能夠大家有更好的作品.

2012年6月16日 星期六

關鍵字! 分類! 語意網路~~ (Semantic Web)

事實上這篇文章不是要提出甚麼新的想法, 因為這個是在宅度計 (otaku.datamning.tw) 已經實作過了, 只是這次在部落客百傑又被提出來討論而已, 主要是為了回一則噗浪的訊息, 發現不是幾句話可以講完, 所以寫成這一篇....

當然有些有趣的觀念與觀點, 因為這樣的系統也是最近 iOS 6 很火紅的 Siri 的一個基礎, 也就是語意網路的發展, 但有趣的觀點也是在於到底系統要到多完整才是能夠實用的?

不得不否認無論是 Siri 或宅度計或部落客百傑用的 Semantic Web 語意網路的資料庫與方式都不夠完整, 但在某些觀點是: "若一個系統的實用不是在於多完美, 而是在於能不能用, 有沒有價值", 因為事實上我們都很清楚真的要做到完美的語意網路, 不是幾年內完成, 雖然一定遲早會完成, 或者是現在要做的是繼續完成.

嗯, 這不是重點, 而是有人對部落客百傑的 "專業度" 這邊的判斷提出很大的置疑, 這是不否認就成熟度是不夠的, 但事實上也沒有大家所想的那麼脆弱, 畢竟這也是大家好幾年的成果之一.

而我稍微來以 Q and A 來寫下面的內容吧, 甚至有些問題是沒人提過的, 是我們一直在努力去達到我們目標的問題:

Q: 專業度的判斷是判斷文章的專業性嗎?
A: 事實上用專業度這字有點語意的問題, 因為說起來應該是分類性, 也就是例如旅遊的專業度指的是文章對旅遊這分類的投入.

Q: 一篇文章只有一個分類嗎?
A: 事實上一篇文章可能有很多分類, 甚至應該說的是比例, 在實務上可能是只要是 30% 以上是這分類的, 就足以認為是這分類, 例如一篇文章是被判斷是 40% 旅遊, 30% 美食, 20% 時尚, 10% 其他, 在實務上可能就被判斷同時為旅遊與美食, 但這次比賽是如何我並沒有那麼確定.

Q: 是不是要文章有關鍵字才行?
A: 無論如何一定須要有相對應分類的關鍵字算出來的語意網路才有可能被列為其分類, 但我們知道要去 "窮舉" 分類的關鍵字是不太可能, 甚至關鍵字嚴格說是被 "訓練" (Train) 出來的, 訓練的完整度是須要資料庫的累積, 也就是時間越久, 分析的文章越多越準.

Q: 是不是要重覆提到關鍵字才行?
A: 事實上同一個關鍵字貢獻的分數有限, 寫個三五次後再多寫幾次, 就不會對此分類有多大貢獻了, 通常反而是使用更多相對應的關鍵字更多, 才反而對此分類有較多的貢獻, 只是關鍵字越多, 相對應的密度也會降低, 若可以集中一個分類會更有效, 但你寫作的時候考慮這件事是沒甚麼必要.

Q: 是不是所有關鍵字都只有一個分類?
A: 事實上關鍵字對一個分類的貢獻因素很多, 這個關鍵字的常見度, 字串長度, 跟這個分類的關係 (Relation) 與距離 (Distance), 都會影響最後分類的判斷標準, 除外還有母字串與子字串等等都是考量的因素, 這些都會化成距離的關係.

Q: 有沒有可能明明是某分類的文章, 因為對象過於冷僻, 所以沒算到?
A: 這次所使用的語意網路是數萬個關鍵字, 但事實上會用到個關鍵字是超過十萬到數十萬, 很肯定的一定不可能所有資料都會算到, 但對八成的常用關鍵字倒是沒問題, 但我們知道只要過於少人使用或真的過於 "專業", 就還真的算不到, 因此這語意網路一直在增加補足, 甚至每天都會增加, 但要去達到 100% 的覆蓋率是不太可能.

Q: 到底甚麼樣的關鍵字才是親子類?
A: 親子類是在這個分類最麻煩的, 因為在既有的語意網路並沒有建立親子類, 加上這部份文章都很發散, 從政治到生活, 各種分類都有可能, 所以在某種觀點是很難分類的, 但因為很多 BSP 都希望有這項分類來鼓勵親子的部落客, 所以這部份的語意網路在判斷上雖然很弱, 也希望下次會更準確.

現在先寫到這邊, 事實上語意網路分析是個很大的學問, 不是上面的 QA 就可以講完的, 但也嘗試著讓大家透過這幾個 QA 有點概念.

最後, 我上面所說的, 無法代表官方, 並不是說這是要幫誰在逃避甚麼, 因為寫程式的人不是我, 我提供的是演算法與已經在宅度計/部觀門所使用的語意網路, 而資策會原本就有既有的演算法與語意資料庫, 因此最終的程式計算是如何我現在是不知道的, 但方向應該不會差太多.

只是這篇文章是讓大家知道專業度分類的計算部份, 不是 S-Rak 的計算那一部份, 畢竟那又是一個可以寫比這篇文章更長的議題, 畢竟這次比賽用的是只是部份的 S-Rank, 加上因為比賽是不能因為有問題就可以調整改變公平性, 而未來的 S-Rank 會嘗試著解決這些問題, 但也只是等比賽過後了, 所以很多工作人員都經過這次比賽學習了不少, 但也期望做得更好.


2012年6月11日 星期一

[網點] 五都首長大對決: 誰最受傳媒青睞, 誰最受大陸人歡迎?

有人說, 藍營的首長被大多數的傳統媒體給關愛, 而相較之下綠營受到社群的歡迎, 這命題到底是對還是不對, 從網點來看看是否可以實證出甚麼? 

網點並不是只有可以看網站而已, 事實上只是跟網站, 跟關鍵字有關, 都可以拿來觀察, 記得在五年前我也寫過類似的系統叫 "Hook", 是個以網路行為為基礎的行為調查.

當然過了五年後, 現在的成熟度更高了, 不只系統穩定度好很多, 更有迴歸, 複立葉等分析工具在手, 加上 Google Chart Tools 的加持是差很多的, 還記的當時只有很陽春的 Google Graph.

廢話不多說, 大家比較有興趣的是這系統是如何應用在民意分析的, 我們就來做個小實驗, 來檢驗五都與其他縣市首長網路行為:

大家可以到 "台灣縣市長比較頁" 來看詳細的數字, 但我們在下面的討論只聚焦在五都首長, 畢竟這個等級是差很多的:

下面這個圖是大概的狀況:



看了這個表, 我們可以看到幾點有趣的證明, 因為這已經是大家早就知道的觀點了, 只是之前沒有量化的資料證明:

1. 新聞影響力: 郝>>朱>菊>胡>>賴, 這邊看得出來郝龍斌遙遙領先, 賴清德差距很大, 朱立倫與陳菊相當接近.

2. 社群經營力: 菊>>朱>賴>郝>>胡, 這個數字若是以賽車的觀點, 可以說陳菊在是領先別人一圈到達終點, 而賴清德與朱立倫先後抵達, 而胡志強是落後別人兩圈以上.

3. 媒體偏好度: 胡>郝>>朱>>賴>菊, 胡志強跟郝龍斌都具有傳統媒體好強的偏好, 朱立倫就差強人意了, 而賴清德與陳菊感覺新聞是愛報不報的.

4. 大陸歡迎度: 胡>菊>郝>>朱>>賴, 社群表現很糟的胡志強在大陸的微博剛好是最熱門的人, 陳菊最近的西進也受到注意, 郝伯伯的兒子也是蠻有名氣的, 只是賴清德過去的話應該不會被人認出來.

除了上面四點外, 還有很多有趣的現像, 利如社群經營力很差的郝龍斌在批判性高的 Google+ 很受討論, 卓伯源在臉書還贏過兩個直轄市長, 劉政鴻不知道在噗浪是有大量的贊許還是批評? 數字無法知道原因, 只能知道結果, 但相對的, 人的智慧是可以推敲出原因的, 這些數字相較之下是可以拿來佐證的.

從這樣的數字你能觀察出甚麼呢?

2012年6月10日 星期日

從網站經營來看 SEO 工夫的比較

網點 (網站完全評點) 的目的不是單純的從資料探勘 Data Mining 來看搜尋引擎最佳化 (Search Engine Optimization), 因為要了解自己網站的狀況, 除了像 Google Analytics 或 Webmaster Tools 之外, 須要使用的工具還很多, 有些是要自己做, 有些要參考的資料不只是自己而已, 甚至有些要以各種面相去觀察.

所以除了搜集資料, 儲存資料的歷史外, 更重要的是要用甚麼方式去呈現, 畢竟資料最後是要給人去了解的, 而了解的容易與否取決於資料呈現 (Data Presentation) 的好壞, 只是說到這個 Data Presentation 是我的弱項, 雖然如此我還是努力去試試看.

在之前的一篇 "從數字的歷史來看網站經營, 網點: 網站完全評點", 提到 Data Cleaning & Correcting 之後用簡單的圖表來呈現, 其中用的是 Google Chart Tools 的折線圖, 而 Google Chart Tools 也有一個 Table 的工具, 所以在數字比較的表格, 我也嘗試著用 Google Chart Tools 來畫.

比較有趣的是這個 Javascript 的 Table 可以按照自己的觀點來排序, 因此可以觀察的出那一個數字, 或那個比例值對排行榜影響比較大, 只是要比較的話, 當然是以相同關鍵字但的不同網站來觀察, 所以我做了一個這樣的網頁, 例如大家可以看兵家必爭的 "購物網站" 的狀況:



這個是以購物這個關鍵字來看這幾個 EC 網站的各項數字的表現, 若在這邊看不到, 大家可以直接去看看.

從這邊大家可以看得出來, 連結數是很重要的關鍵, 當然那四項比例中, 專注度與標題比對排名的影響較大, 尤其是專注度, 相較收錄數分數等等的單一數值來看相對重要, 但這個往往是個很麻煩的問題, 基本上網站收錄數越多, 比例也會降低, 但也代表的內容的專注度要靠更多的內容.

就像是我在 Facebook 上面有說到, "畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗連結的 "錨定文字" 吧.", 內容最後還是重點阿.

只是這些都是種說法, 若你想要多了解的話,可以自己輸入自己的網站以及跟你競爭網站的網址, 只要是用相同關鍵字建立, 都可以在 "關鍵字比較" 網頁看到這個表格, 然後可以多多觀察與實作, 畢竟我都常說, 要真的了解網站與 SEO, 須要多年的經驗, 其中包括唸書與實作, 這樣才能真的提升自己的能力, 想靠黑帽 (只靠行銷而不管內容) 的方式來操作, 雖然我也無法阻止, 只是我這邊也幫不了忙.

2012年6月8日 星期五

網點: inanchor 與 inurl 對 SEO 的效用為何?

在開始寫這篇之前, 先弄個小 box 讓大家回顧之前有關 網站完全評點 (原SEO鑑價系統) 的文章:

對黑帽 SEO 的回應 (SEO 鑑價系統的初探 I)
內容關鍵字的數量與比例 (SEO 鑑價系統的初探 II)
你找的 SEO 公司真的有成效嗎? (SEO 鑑價系統的初探 III)
從部落格觀察的失敗來看 Crawler 的設計 (SEO 鑑價系統的初探 IV)
SEO 評價的四面相 (SEO 鑑價系統的初探 V)

除此之外, 也寫過兩篇文章:

從關鍵字使用量看社群使用量, 台灣對臉書的依賴過高?
從數字的歷史來看網站經營, 網點: 網站完全評點

這幾篇文章可以說是我對 SEO 中的稽核部份的數字觀點的小結與再出發, 而說到再出發也包含了一些新的實驗與實作, 其中最近做了一個相當有趣的實驗, 就是利用 Google 的搜尋結果來做 "語意網路" 的延伸, 這是相當有趣的, 例如


觀光這個字來計算, 可以算出下面兩種面向的延伸:
延伸關鍵字 : 觀光巴士 糖廠 旅遊網 黃健庭 旅遊資訊 王乾發 旅遊 酒廠 李朝卿 台灣旅遊  
被關連 : 公車 旅遊網 糖廠 旅遊資訊 交通 軍人

而用馬英九來計算, 結果是: 
延伸關鍵字 : 總統 胡志強 黃敏惠 陳水扁 王乾發 蘇貞昌 總統府 謝長廷 傅崐萁 證所稅  
被關連 : 瘦肉精 蘇貞昌 林書豪 國民黨 陳水扁 總統府 證所稅 總統

大家有興趣可以自己點進去看, 例如 瘦肉精 可以延伸出甚麼?

這就是一個有趣的 Data Mining/Text Mining (文字探勘) 的小實驗, 以這系統自己本身已有的關鍵字資料來做延展, 這對幫助使用者操作, 提高內部連結, 加強關鍵字強度, 增加內容性等等都很有幫助, 這也是我在很多公開場合講過但還沒寫出來過的不算密技的密技, 因為這個是大家都知道, 但實作出來卻須要很多背景知識與經驗.

上面這個本該是獨立出一篇文章, 但可以寫的東西太多, 反而沒有時間完成, 在這邊就小提一下, 但在這次的實驗中, 是增加 inanchor 與 inurl 的觀察.

我在有次回答 ET Blue 有關 SEO 的時候, 有說到一點 SEO 重要依序:
 

1. 網域名 Domain Name
2. URL
3. 標題 Title
4. Head 的 Tag
5. 其他 Logical Tag 
6. Alt, Desc 等符合 "無障礙" 的 Tag
.....
N. 關鍵字密度 Keyword Density
.....
M+N. Meta Data
....


這篇內容寫在 最重要但也最沒用的 SEO 心法裏面, 大家可以去看, 只是網點站好像沒有針對 URL 下去做, 尤其是在外部連結的 "錨定文字" 下工夫, 雖然這些在 Google 上面都有資料, 但這也是最麻煩的.

記得有一次老貓問到我說, 為甚麼 Google 能夠在這麼短的時間內算出這個字有出現 12600000 次, 這是多可怕的計算量阿! 但我回答說, 事實上這是個推估, 因此只有 3 個有效位數, 並不是真的去從頭到尾算一次.

但也因為是推估的關係, 所以常常會有數字相當大的跳動, 這跳動不是只有 10%~30% 的跳動, 而是數十倍到百倍的跳動, 例如右表就是逐日去取樣 Google 對 SEO 這關鍵字的推估數字, 而 Google 已經是這樣子了, Bing 更是慘不忍睹阿... 所以說, 在資料探勘中, 要面對的一個大挑戰不是 Crawling 抓取而已, 而是這種二次資料, 須要很大的工夫去做 Data Cleaning and Correcting, 資料乾淨與正確化, 這部份我花了一個月才弄出好的演算法來畫出上次大家看到的網站成長圖, 不然會是個到處跳動的轉折無法判斷的圖.

而 inanchor 與 inurl 為甚麼之前都沒有在計算, 因為這個誤差跟跳動比連結更可怕, 畢竟在這種 Big Data 的資料處理大多是有用 Cache 快取的機制, 若是很少人會查詢或第一次查詢時誤差會相當的大, 相對的若是常用的話就會比較準確, 而這部份的 Data Cleaning 是比可怕還要可怕.

而外部連結與錨定文字之重要性不說大家也知道, 在 Webmaster Tools 中, 不只是對 Crawler 抓到的內容做分析, 其中也把外部連結之錨定文字也列出一個章節, 只是外部連結的錨定文字我們無法去改變, 但網站內部的錨定文字總是可以下工夫努力的吧?

只是這部份 Webmaster Tools 也是沒有 History 歷史分析與成長, 幸好有 "網點" 站, 所以現在可以放心大膽的去來抓資料要驗證計算, 以及幫忙作歷史, 畢竟在做 SEO 的人知道內容是王道, 外部連結是女王, 而網址是無法動搖的基礎, 而我們來檢驗外部連結的 "錨定文字" 吧.

所以, 等過幾個星期累積到足夠的資料我們再來好好評點吧.

備註: 錨定文字指的是 HTML Tag 中 <a href=網址>文字</a> 中的文字, 因為 a 是 Anchor, 所以稱為錨定文字或錨文字.

熱門文章