有些人知道我的專長絕對不是 "行銷", 雖然我唸了 7 年的管理學院, 包含資管系所與管理科學等, 但與其討論是否善長 "行銷", 還不如說我更相信 "技術" 帶來對人的幫助, 包含 "行銷"....
所以我現在都只說, 我的專長是在 "預測" 以及背後的技術, 只是這背後包含的技術有 "數學", "高效能運算", "系統調校", "統計", 等等的東西, 或者以現在的觀點稱為 "資料探勘" 或者是較早稱為 "資訊獲取 (Information Retrieving) " 的無聊名詞.
因此很多人以為我會把部落格觀察所獲得的資料拿來 "採礦", 但過了一年多後, 終於推出一個叫 "部落格足跡" 的計劃, 這個才是在我的觀點是第一個有兩階層以上計算的 "資料探勘" 的應用, 為甚麼呢? 因為部落格觀察一直在跟資源作奮戰, 而 Data Mining 基本上是很吃資源的, 所以說要真的去計算甚麼東西, 是不太可能的, 所以一直到有別的單位支持這計劃才得以實現.
若是說 "Birds of a Feather Flock Together" 的話, 這個計劃就是 "Blogs of a Foot Flock Together", 也就是說, 鳥若是因為羽毛來決定屬性的話, 部落格就是靠足跡, 而這個足跡在這個計劃定義為 "讀者"....
也就是說這個系統就是計算 "讀者的交集度" 來決定 "部落格的關係度", 這聽起來很單純, 只是甚麼是 "讀者的交集度" 呢? 我這邊來說的較複雜一點好了:
若你的部落格 A 有 500 個讀者, 而有個部落格 B 有 300 個讀者, 且其中 200 個你是相同的, 所以你們之間的交集度可以定義為 sqrt(200^2/(500*300)) = 0.5163.... , 就是有 0.52 的交集度, 若是有另一個部落格 C 有 1000 個讀者, 跟你的部落格交集有 300 個, 則交集度是 sqrt(300^2/(500*1000)) = 0.4242... , 也就是 0.42 的交集度, 自然前者雖然相同的讀者數較少, 但比例較高, 自然交集度較高..
而在部落格觀察的貼紙中, 每天有上萬個部落格被點閱, 而這系統就計算出你跟這上萬個部落格的交集度後, 排出排行榜出來, 而這種方法在資料探勘是最基本的 "關聯度分析", 只是如何在每天有數百萬點閱數中找出這些資料, 才是挑戰, 甚至我們計算所謂每天的資料, 並不只計算單一天而已, 而是一個星期, 也就是這是數千萬筆資料的計算~~~~
但怎樣計算並不重要, 而是算出來後代表的是甚麼或能夠拿來作甚麼...
1. 讀者交集度越高, 代表這兩個部落格族群重疊度越高...
2. 可以拿來作延伸閱讀...
3. 對於只會悶著頭寫的部落客, 可以看看還有那些部落格是跟你很像的?
4. 去拜訪與認識那些理論上跟你比較近的部落格或部落客.
而這個系統在昨天寫出週統計後, 整體雛型就完成了大半, 然後就是呈現的方式了, ...
因為昨天跟 686 提到這個, 我就拿他的來舉例好了, 大家可以直接點去看, 而在週排行的前 5 名為:
1. 小小書房|因為對書的愛情,我們存在 => 58
2. 薄荷奶茶部落格 - :: PIXNET BLOG :: => 54
3. 乖 - 天空部落 => 44
4. 富爾豪斯的舞寺參世界 ::PIXNET 痞客邦:: => 40
5. 四貓之母居所 - Yahoo!奇摩部落格 => 34
在每日排行榜中, 我們有濾掉只剩個人部落格, 但在週排行就沒有, 而跟 有河book 最接近的說是 "小小書房" 應該沒有人否定吧? 而之後的部落格有貓的, 有旅遊的, 但除外還有一個是相簿的, 而之間有甚麼關係我是不知道, ....
若是看這個部落格(黑貘來說) 的話, 前 8 名為:
1. 新台灣* Web 2.0 觀察表 Beta mk2 => 65
2. 大明攝影日誌 ::PIXNET 痞客邦:: => 38
3. 放逐流浪異鄉的旅人啊 => 35
4. 工程師級的顧問 / 【食夢黑貘】 => 35
5. 灰頭土臉:Xuite日誌 => 35
6. MyZilla Wiki: Welcome! => 34
7. 影音"不落格",許多音樂、mv,歡迎你的 => 33
8. 不是捷運日記 => 33
這 8 個有 4 個是我自己的部落格, 所以有時跟連結有相當大的相關, 畢竟為甚麼讀者會交集, 通常是有相互連結或介紹, 或者是跟本是同一個族群或是本人自己的創作, 都可以由這個看出來...
只是這個系統目前只是 beta 的 alpha 的測試版, 所以有甚麼想法可以跟我講~~~
2008年1月10日 星期四
訂閱:
張貼留言 (Atom)
熱門文章
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
又一個是乍看很漂亮, 功能很多, 資料也不少, 但完全沒有經營概念與基礎的網站, 為甚麼政府單位的網站都是這樣阿.... 基本上要討論裏面內容的問題可能討論不完, 我先說以內容與經營相關 SEO 的角度來看這網站的問題: [主要問題] description: ...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
網路行為真的存在一個未明的兩週週期嗎? 落格溫度計是一個有趣的概念, 因為轉了很多圈... 1. 先算出一個部落格每天的七日平均 2. 然後從這七日平均線圖做迴歸出一個斜率 3. 然後把所有的部落格斜率加總出這個數字 接著我們畫出這數字的分佈, 我驚然發現, 這數字不只不是個隨機...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
基本上我上一篇的 " 我為甚麼要 Plurk ? " 講出來了用 Plurk 的人並不是很多人都有在經營部落格, 所以前一篇的 " Plurk 的個人 Widget 開始... " 是挺沒有意義的, 因為這 widget 不能放進 plur...
-
昨天終於悠遊卡踩到 6000 次了.. 6000 次 2011/07/28 (1 年 1 個月又 10 天) 5000 次 2010/06/18 (1 年 6 個月又 27 天) 4000 次 2008/11/20 (1 年 8 個月又 13 天) 3000 次 2007/03...
單純是因為看到我blog的名稱....
回覆刪除