有些人知道我的專長絕對不是 "行銷", 雖然我唸了 7 年的管理學院, 包含資管系所與管理科學等, 但與其討論是否善長 "行銷", 還不如說我更相信 "技術" 帶來對人的幫助, 包含 "行銷"....
所以我現在都只說, 我的專長是在 "預測" 以及背後的技術, 只是這背後包含的技術有 "數學", "高效能運算", "系統調校", "統計", 等等的東西, 或者以現在的觀點稱為 "資料探勘" 或者是較早稱為 "資訊獲取 (Information Retrieving) " 的無聊名詞.
因此很多人以為我會把部落格觀察所獲得的資料拿來 "採礦", 但過了一年多後, 終於推出一個叫 "部落格足跡" 的計劃, 這個才是在我的觀點是第一個有兩階層以上計算的 "資料探勘" 的應用, 為甚麼呢? 因為部落格觀察一直在跟資源作奮戰, 而 Data Mining 基本上是很吃資源的, 所以說要真的去計算甚麼東西, 是不太可能的, 所以一直到有別的單位支持這計劃才得以實現.
若是說 "Birds of a Feather Flock Together" 的話, 這個計劃就是 "Blogs of a Foot Flock Together", 也就是說, 鳥若是因為羽毛來決定屬性的話, 部落格就是靠足跡, 而這個足跡在這個計劃定義為 "讀者"....
也就是說這個系統就是計算 "讀者的交集度" 來決定 "部落格的關係度", 這聽起來很單純, 只是甚麼是 "讀者的交集度" 呢? 我這邊來說的較複雜一點好了:
若你的部落格 A 有 500 個讀者, 而有個部落格 B 有 300 個讀者, 且其中 200 個你是相同的, 所以你們之間的交集度可以定義為 sqrt(200^2/(500*300)) = 0.5163.... , 就是有 0.52 的交集度, 若是有另一個部落格 C 有 1000 個讀者, 跟你的部落格交集有 300 個, 則交集度是 sqrt(300^2/(500*1000)) = 0.4242... , 也就是 0.42 的交集度, 自然前者雖然相同的讀者數較少, 但比例較高, 自然交集度較高..
而在部落格觀察的貼紙中, 每天有上萬個部落格被點閱, 而這系統就計算出你跟這上萬個部落格的交集度後, 排出排行榜出來, 而這種方法在資料探勘是最基本的 "關聯度分析", 只是如何在每天有數百萬點閱數中找出這些資料, 才是挑戰, 甚至我們計算所謂每天的資料, 並不只計算單一天而已, 而是一個星期, 也就是這是數千萬筆資料的計算~~~~
但怎樣計算並不重要, 而是算出來後代表的是甚麼或能夠拿來作甚麼...
1. 讀者交集度越高, 代表這兩個部落格族群重疊度越高...
2. 可以拿來作延伸閱讀...
3. 對於只會悶著頭寫的部落客, 可以看看還有那些部落格是跟你很像的?
4. 去拜訪與認識那些理論上跟你比較近的部落格或部落客.
而這個系統在昨天寫出週統計後, 整體雛型就完成了大半, 然後就是呈現的方式了, ...
因為昨天跟 686 提到這個, 我就拿他的來舉例好了, 大家可以直接點去看, 而在週排行的前 5 名為:
1. 小小書房|因為對書的愛情,我們存在 => 58
2. 薄荷奶茶部落格 - :: PIXNET BLOG :: => 54
3. 乖 - 天空部落 => 44
4. 富爾豪斯的舞寺參世界 ::PIXNET 痞客邦:: => 40
5. 四貓之母居所 - Yahoo!奇摩部落格 => 34
在每日排行榜中, 我們有濾掉只剩個人部落格, 但在週排行就沒有, 而跟 有河book 最接近的說是 "小小書房" 應該沒有人否定吧? 而之後的部落格有貓的, 有旅遊的, 但除外還有一個是相簿的, 而之間有甚麼關係我是不知道, ....
若是看這個部落格(黑貘來說) 的話, 前 8 名為:
1. 新台灣* Web 2.0 觀察表 Beta mk2 => 65
2. 大明攝影日誌 ::PIXNET 痞客邦:: => 38
3. 放逐流浪異鄉的旅人啊 => 35
4. 工程師級的顧問 / 【食夢黑貘】 => 35
5. 灰頭土臉:Xuite日誌 => 35
6. MyZilla Wiki: Welcome! => 34
7. 影音"不落格",許多音樂、mv,歡迎你的 => 33
8. 不是捷運日記 => 33
這 8 個有 4 個是我自己的部落格, 所以有時跟連結有相當大的相關, 畢竟為甚麼讀者會交集, 通常是有相互連結或介紹, 或者是跟本是同一個族群或是本人自己的創作, 都可以由這個看出來...
只是這個系統目前只是 beta 的 alpha 的測試版, 所以有甚麼想法可以跟我講~~~
2008年1月10日 星期四
訂閱:
張貼留言 (Atom)
熱門文章
-
說真的, 這次的低潮還算挺久的, 在某方面而言, 在做完 "宅度計" 之後, 就停下來了, 就最後的日期大概是 5/29 號前後吧, ... 這段時間唯一做的大概是 Google Trends 的數字計算, 那時是 6 月 23 日吧, 在之前的 6 月 5 ...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了. 當然 CTR 不是只有注重 SEO 的人才須要注意...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
在過了短暫的墾丁之旅後, 該收心認真工作, 但似乎也只有一個星期... 這段期間因為 Engadget 的大總編 借我 3G Card, 所以在找吃的或住的是有派上用場, 也幾乎是隨時都可以上網, 但卻沒有停下腳步寫任何的 Blog... 但這次很意外的像這樣的 3G 在墾丁所...
-
在部觀門這計劃一開始的時候, 我就發現 New Order 的 Bizarre Love Triangle 這首歌似乎一直被有人查詢, 其中會導到一個朋友的 Blog, 我在想除了這首歌外, 還有那一首能夠如此成為經典呢? 事實上大家知道的絕不是 New Order 的版本, ...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
單純是因為看到我blog的名稱....
回覆刪除