2012年5月22日 星期二

從數字的歷史來看網站經營, 網點: 網站完全評點

沒有足夠資訊所做的判斷, 只是又再次增加錯誤的決策罷了.... 

楊威利, 前十三艦隊軍團長

我們都知道要看一個網站經營, 最直接的就是看使用量或業績/利潤, 但這些只是最後的結果, 要知道如何改善, 還是須要很多細節去發現如何做, 網點就是因為這樣做出來的網站.

這網站原本預計是在 4/1 公開的, 但一拖就拖過馬總統還是就職過後, 只是到現在這個網站還是沒有美化, 但至少有一個 Visualization 視覺化的圖表後, 就匆忙公開了....

在之前很多人知道這網站是從 Data Mining 資料探勘的角度來看 Search Engine Optimization (SEO) 的這個企劃, 但想想我個人實際上跟本不喜歡 SEO 這東西, 而再做一個 SEO 網站不是很好笑嗎? 所以窮則變, 變則通, 最後 SEO 變成 Site Examination Over, 也就是網站完全評點, 簡稱 "網點", 這樣就不會太無趣了吧...

但從 2 月底做到現在, 資料都搜集快三個月了, 很多資料量的確大到可以視覺化了, 其中最重要的就是這網站真正的初衷: "幫網站做成長的歷史".

以我偏頗角度的思維來看, 觀察數字須要做到幾點:

1. 自動化: 能夠不透過人的方式主動, 客觀的抓到資料.
2. 即時性: 隨時盡量呈現最新的資料.
3. 歷史: 從時間軸知道事情的變化.
4. 標準化/指數化: 無論是 Normalization 或 Indexing, 降冪達到一個可以比較的基準.
5. 大量資料: 要有足夠的 Entropy (熵) 才能夠獲得有用的結果.

但上面者五點, 很多人都有做到, 但很多人都會忽略一點, 且也最麻煩的是 "歷史", 畢竟很多人在處理資料的時候, 都沒有考慮到時間序列 (Time Series) 的資料處理方式, 就像是我常以網路管理角度的出發來舉例: "CPU 負荷 80% 不算高, CPU 負荷 5% 不算低, 因為要跟之前做比較".

網點站抓的資料相當大量, 有從關鍵字角度出發, 也有從網站角度出發, 上次有說到從關鍵字在各個社群網站的表現來推估使用者在 SNS 內容產出量的比例, 這就是一種二次資料的應用, 而這次也從 Google/Bing/Yahoo 等搜尋引擎來看網站的表現, 雖然也是種二次資料, 也就是絕對沒有網站真正經營者資料來得更完整, 但我知道大部份的網站經營者都沒考慮 "時間" 與 "比較".

因此網點就以這兩個角度做出發, 幫大家從 Search Engine 的觀點來看自己網站的成長史, 以及跟他人做比較, 只是現在寫出來的是成長史, 比較部份可能要晚一點完成.

下圖就是這個部落格 (黑貘來說) 的成長歷史圖表:



這歷史有兩部份, 一部份是網頁收錄數, 以及最新的外部連結, 這兩部份無論對內容經營者, 或社群行銷者都是很重要的資訊, 雖然這些資料沒有每天的 Log Analysis 準確, 但又的確是可以反應出一種經營成果的 KPI.

當然這系統是開放的, 也就是說大家都可以自己輸入自己查, 但像外部連結收錄史這比較會花資源的, 可能就是以 Coffee Service 的方式來運作, 只是比較討厭的事是像這樣漂亮的圖表, 可能須要輸入後過幾個星期才會比較好看, 也就是當已經抓了上千筆資料後, 在 Presentation/Visualization 呈現與視覺才有足夠的 "空間" 來美化, 相較資料不夠還畫不出甚麼有意義的圖表.

這邊的外部連結是以 Google Crawler 呈現在 Search Engine Result Pages 為主, 若你自己去看 Webmaster Tools 數字一定會比這邊多, 且更有時效性, 但通常這邊的資料往往也是最會直接影響 SERP, 所以相當重要, 因為外部連結是社群行銷經營最有義的成果. 再過幾天, 也會針對這部份做分析, 包含以網站為單位的分析都有可能.

網站經營的層面真的太多, 我之前還寫過網站經營的 13 層面, 比 ISO 的 OSI 七層還要多, 這也表示經營網站要看的資訊真的很多, 只是要如何系統化的去了解, 這個評點只是眾多工具的一個, 但也是蠻重要的一個.

Anyway, 若大家有興去, 就去 網點: 網站完全評點 看看吧..

2012年5月8日 星期二

The New 部落客百傑 社群力指標 的一些設計想法

這次參與資策會的社群力指標, 在前一篇的講部落客百傑的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的價值.

先不談一個更重要的命題, 也是大家在疑問的: "明明是部落客, 為甚麼要看其社群經營", 尤其這命題跟我平常講的: "內容是最重要也是最基礎的價值" 不是相違背嗎? 但這個問題可能不是寫兩三篇就講的完的, 且我知道也有很多人都知道也都會寫, 所以當我看完大家的回應我再來補充.

這篇是來講些數學課, 以及數學之外的 "限制".

雖然這次社群力是我提出這構想以及規劃的, 但不是由我一個人決定的, 甚至我知道其中有一個同事所做的 "價構完成" 貢獻比我大很多 (若他願意曝光我會加連結), 更重要的這次計算的程式設計我都沒下去寫, 因為我最近都只用 PHP 與 Python/C 阿.

當然知道我 "惡趣味" 的人都知道我對 "綜合指標" 有一定的偏好, 這次的社群力也是種標準的綜合指標, 尤其是我知道當 Klout 做出來後, 要做得比他好, 或者是只在台灣做雖然不須要上億的資金, 但也不是那麼簡單, 尤其是這種綜合指標的困難不只是在公式, 而是在抓取的功夫, 所以若沒有創研所這樣的人力資源, 還真的做不出來.

因此在很邏輯的定義出社群力的四面向後, 接下來的討論是下面幾個:

1. 目前在這次的部落客百傑能夠完成多少數值的計算?
2. 以目前的資源能夠承擔多少的附和?

基本上這專案當然不可能有 Klout 等級的資金與資源, 甚至應該說在這樣有限的資源與人力要如何達成這樣的任務與挑戰就變成最大的 "限制".

除此之外, 雖然這社群力指標雖然在未來是一個 "持續性的服務", 但現在要實作的是 "階段性的部落客百傑", 因此在這段時間內又會有兩個限制:

1. 這段時間內盡量不要改變演算法去影響比賽的一致性.
2. 已經對外說明這個分數在這段時間是累積不會降低的.

在了解這樣的限制後, 我們在設計一個指標通常要避免一些事情.

1. 要讓每一筆資料都能夠具有判別力, 或者說有意義.
2. 不能讓一筆資料有太大的決斷, 也就是不能只靠他就可以決定.

因此綜合指標通常設計一定不是算數平均, 一定是幾何平均或調和平均之類的, 不然也會將數字做尺度與次序的轉換, 就像是部落格觀察都是以排名為基礎的原因, 但最好的方式可能是做 "Distribution Normalization", 也就是依分布來標準化.

事實上原本希望這次不要用次序轉化, 而是要做分佈標準化, 但這方法的變動性相當高, 不只分數會跳動, 甚至會下降具有不穩定, 造成給大家有不一致性的感覺, 因此用了最有趣的計算就是對最高值做限制, 避免一個分數因為過大造成整個指數被這個分數來決斷判定, 尤其是 "人氣" 這個數字即使取了對數, 但大家的差別還是會相當大, 所以做了一個有上限最大值的 "區間" 轉換.

這個社群力指數就是由四項 0 分到 25 分加總起來的, 因此最高不可能超過 100 分, 這也是因此看得出有上限的設計, 雖然現在不少人看到人氣值偏高, 專業度都偏低, 但在整體而言由於上限的設計, 反而讓專業度的決斷力增加, 人氣值的影響力反而不是那麼跟大家所想的那麼重要, 但也不代表這數值不重要, 也一樣重要.

雖然現在大家對這機制最大的質疑不只是計算方式, 而是更新沒有那麼即時甚至會抓錯或抓不到的狀況, 或者是判別類別的問題, 這部份才是最大的挑戰, 若這是我自己一個人做的話, 我雖然會做到即時, 但一定會避免這件事, 畢竟這要花的工夫以及解決的困難度是相當高的, 甚至這套系統可以說是由 10~20 人去完成其架構的, 無論要去統合與完成, 都沒那麼簡單.

這些其他部份就以後再說, 因為我知道很多人看到這邊已經頭昏眼花了.

2012年5月3日 星期四

Google+ 專頁的藝人策略 (Google Plus Page)

最近在 Google + 專頁最被討論到的大概就是 五月天的 Official+ 的風潮, 這風潮帶動了整個 G+ 增加一半的氣勢, 只是這氣勢只是從占有率 0.4% 升到 0.8%, 這個比例可以從前一陣子做的網點站看得出來.

五月天的專頁不只取代重灌狂人成為理論上台灣最多 Followed 的專頁, 且一口氣破 2 萬人, 甚至 3 萬人應該不用再幾天就可以做到, 若猜得沒錯的話, 羅志祥的專頁今天也可以破 1 萬人,  因此台灣就有 3 個破萬的 G+ 粉絲專頁了.

記的在 Google Plus Page 出來時, 重灌狂人的高人氣可以在全球排到前 200 名, 那時第一名最高是 Android 的 23 萬, 前 10 名中有 7 個是科技相關, 甚至有 6 個是 Google 自家產品的粉絲專頁, 而在去年年底在 G+圈圈報 時說的:


當相較一下 Twitter, 最高的是 Lady Gaga, 有 170 萬人了, 而 Britney 在 Twitter 則是排第五名, 只是這些數字相較 Facebook 真的都少太多了.. 
Facebook 單單破 100 萬的粉絲數的就有 153 個, 就個人而言最高的是 Eminen (第三名, 前兩名是 Facebook 與 Texas Holdem Poker) 就有 49,894,630 快 500 萬, Lady Gaga 還輸 Rihanna...

那時粉絲專頁是一個破百萬的也沒有, 而在剛剛看到有人提到另類的台灣最高的被追蹤者是 Li Ann 黎安, 現在早已經破百萬追蹤了, 在全球排名是 115 名, 此時已經有 149 個人破百萬了, 當然成長的也不只是 Google+, Facebook 也已經有 826 人破百萬了, 所以現在已經是 163 vs 826, 跟當時的 1:150 現在已經追到 1:5 了.

右上圖是現在最高的幾個粉絲專頁, 看得出來, 已經沒有科技產品了, 當時第一名的 Android 變成 42 名, 現在前 10 名 不是藝人, 就是體育, 遊戲跟電視節目, 以這角度來看, G+ 在美國已經慢慢擺脫只有科技人的狀況了.

只是台灣只因為五月天跟羅志祥的關係, 前 10 名剩 8 個是科技與宅宅的專頁, 跟去年時並沒有多大的改變, 畢竟目前 G+ 在台灣還是利用幾個藝人來做點的突破, 若再持續操作下去, 就覆蓋率而言並沒有多大幫助, 因為再怎洗的還是這個族群.

事實上這樣的藝人策略是對的, 只是應該可以從美國的方向來借鏡, 的確藝人是最好操作且最有效, 但更應該的是從更多角度來出發, 雖然說羅志祥不算成功但五月天是好的案例, 但再操作下去意義並不高, 要結合的是電視節目, 像最近巧克力情人就很有心操作 G+, 但好像 Google 並沒有著力太多?

雖然說目前台灣臉書還是較為聊天及鎖事, G+ 還是比較多的討論, 但說真的, 一個 80%, 一個 0.8%, 差了 100 倍的 Pool 我想任何公關公司也知道要如何操作, 但相對而言一個是紅海一個是藍海, 在這邊是一個重新出發的競技場, 在某方面先進入者還是有很大的優勢的, 就看要如何想了.

熱門文章