2012年3月7日 星期三

從關鍵字使用量看社群使用量, 台灣對臉書的依賴過高?

這段文本來是寫在 G+ 的, 但發現越寫越多, 寫完後還有很多想法, 所以轉到部落格完整:

原始的討論在這邊, 不想去看的話下面是原始的文章, 不包含討論: 

說是 SEO 鑑價系統, 還不如說是我對關鍵字與數字研究的惡趣味之一, 而在還沒有 Release 時, 就發現一個很有趣的現像. 

因為這個系統會去抓各個關鍵字在各個社群的表現, 也就是內容或網頁的多寡, 事實上每一個關鍵字都不太一樣, 但若整體去看的話, 若這個量夠大, 就是一個現在 SNS 的內容產生量, 在某種觀點幾乎就是社群使用量. 

而這個關鍵字有中文與英文, 我們可以當成 台灣(+香港?) 與 國外(美國?) 的差別, 跑出的數字如下 (圖):


很明鮮的看出來, 台灣幾乎是臉書獨大占 90%, 而噗浪與推特占 5%, G+ 可以幾乎不用考慮, 而英文則是臉書跟推特各占一半, G+ 的使用量比例比台灣多了一倍. 

當然這個資料在資料探勘的定義我稱為 Side Effect Data Mining, 跟真實的這四個 SNS 使用並沒有絕對的關係, 而是有相對的關係, 甚至是有更多其他因素所總合效應的結果, 因此是可以有很有趣的相關解讀. 

我倒是很有興趣之後每隔一段時間的變化為何?

的確這個數字應該是依時間變化來看來畫出圖會更有趣, 而不只是表格而已, 只是這原始數字是從搜尋引擎 (Google) 來查的, 所以這部份有一些有趣的觀點:

1. 這數字指的是有這關鍵字符合的網頁
2. 這數字是累積下來的歷史
3. 這關鍵字會跟議題在各個族群熱度有很大的相關
4. 這數字會跟 Search Engine Index 的好壞影響很有關
5. 網頁數會受到系統的影響

尤於這個是累積的資料, 就像是老貓所說的, 這既然是看社群網路 SNS, 時效性是一個很重要的東西, 所以這數字本來就應該去看時間間隔的變化才會更有意義, 這也必須累積到一定時間才能夠計算的.

而目前也在 Crawling 微博的資料, 再過一陣就會有微博的資料了, 且這是一個很有趣的題目, 所以這題目將會是 Keyword Data Mining / Text Mining 第一個以 SEO Datamining 出來的長期觀察指數.

後記: 因為有人想知道加入微博之後的結果, 所以又花了一段時間記算, 結果如下:


當然微博的量壓倒性打敗 Twitter 與 Plurk, G+ 更不用話說, 但基本上這個是中文, 後來事實上也不限繁體中文與簡體中文, 發現即使設定之後意義也不大, 因此就照 Google 的最原始資料, 畢竟更切近人的行為預設的才是最合理的.

沒有留言:

張貼留言

熱門文章