有些人知道我的專長絕對不是 "行銷", 雖然我唸了 7 年的管理學院, 包含資管系所與管理科學等, 但與其討論是否善長 "行銷", 還不如說我更相信 "技術" 帶來對人的幫助, 包含 "行銷"....
所以我現在都只說, 我的專長是在 "預測" 以及背後的技術, 只是這背後包含的技術有 "數學", "高效能運算", "系統調校", "統計", 等等的東西, 或者以現在的觀點稱為 "資料探勘" 或者是較早稱為 "資訊獲取 (Information Retrieving) " 的無聊名詞.
因此很多人以為我會把部落格觀察所獲得的資料拿來 "採礦", 但過了一年多後, 終於推出一個叫 "部落格足跡" 的計劃, 這個才是在我的觀點是第一個有兩階層以上計算的 "資料探勘" 的應用, 為甚麼呢? 因為部落格觀察一直在跟資源作奮戰, 而 Data Mining 基本上是很吃資源的, 所以說要真的去計算甚麼東西, 是不太可能的, 所以一直到有別的單位支持這計劃才得以實現.
若是說 "Birds of a Feather Flock Together" 的話, 這個計劃就是 "Blogs of a Foot Flock Together", 也就是說, 鳥若是因為羽毛來決定屬性的話, 部落格就是靠足跡, 而這個足跡在這個計劃定義為 "讀者"....
也就是說這個系統就是計算 "讀者的交集度" 來決定 "部落格的關係度", 這聽起來很單純, 只是甚麼是 "讀者的交集度" 呢? 我這邊來說的較複雜一點好了:
若你的部落格 A 有 500 個讀者, 而有個部落格 B 有 300 個讀者, 且其中 200 個你是相同的, 所以你們之間的交集度可以定義為 sqrt(200^2/(500*300)) = 0.5163.... , 就是有 0.52 的交集度, 若是有另一個部落格 C 有 1000 個讀者, 跟你的部落格交集有 300 個, 則交集度是 sqrt(300^2/(500*1000)) = 0.4242... , 也就是 0.42 的交集度, 自然前者雖然相同的讀者數較少, 但比例較高, 自然交集度較高..
而在部落格觀察的貼紙中, 每天有上萬個部落格被點閱, 而這系統就計算出你跟這上萬個部落格的交集度後, 排出排行榜出來, 而這種方法在資料探勘是最基本的 "關聯度分析", 只是如何在每天有數百萬點閱數中找出這些資料, 才是挑戰, 甚至我們計算所謂每天的資料, 並不只計算單一天而已, 而是一個星期, 也就是這是數千萬筆資料的計算~~~~
但怎樣計算並不重要, 而是算出來後代表的是甚麼或能夠拿來作甚麼...
1. 讀者交集度越高, 代表這兩個部落格族群重疊度越高...
2. 可以拿來作延伸閱讀...
3. 對於只會悶著頭寫的部落客, 可以看看還有那些部落格是跟你很像的?
4. 去拜訪與認識那些理論上跟你比較近的部落格或部落客.
而這個系統在昨天寫出週統計後, 整體雛型就完成了大半, 然後就是呈現的方式了, ...
因為昨天跟 686 提到這個, 我就拿他的來舉例好了, 大家可以直接點去看, 而在週排行的前 5 名為:
1. 小小書房|因為對書的愛情,我們存在 => 58
2. 薄荷奶茶部落格 - :: PIXNET BLOG :: => 54
3. 乖 - 天空部落 => 44
4. 富爾豪斯的舞寺參世界 ::PIXNET 痞客邦:: => 40
5. 四貓之母居所 - Yahoo!奇摩部落格 => 34
在每日排行榜中, 我們有濾掉只剩個人部落格, 但在週排行就沒有, 而跟 有河book 最接近的說是 "小小書房" 應該沒有人否定吧? 而之後的部落格有貓的, 有旅遊的, 但除外還有一個是相簿的, 而之間有甚麼關係我是不知道, ....
若是看這個部落格(黑貘來說) 的話, 前 8 名為:
1. 新台灣* Web 2.0 觀察表 Beta mk2 => 65
2. 大明攝影日誌 ::PIXNET 痞客邦:: => 38
3. 放逐流浪異鄉的旅人啊 => 35
4. 工程師級的顧問 / 【食夢黑貘】 => 35
5. 灰頭土臉:Xuite日誌 => 35
6. MyZilla Wiki: Welcome! => 34
7. 影音"不落格",許多音樂、mv,歡迎你的 => 33
8. 不是捷運日記 => 33
這 8 個有 4 個是我自己的部落格, 所以有時跟連結有相當大的相關, 畢竟為甚麼讀者會交集, 通常是有相互連結或介紹, 或者是跟本是同一個族群或是本人自己的創作, 都可以由這個看出來...
只是這個系統目前只是 beta 的 alpha 的測試版, 所以有甚麼想法可以跟我講~~~
2008年1月10日 星期四
訂閱:
張貼留言 (Atom)
熱門文章
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 &...
-
雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了. 這篇文章我早在去年 11 月時就想寫了, ...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
當羅技出 G13 後, 我就一直期望能夠玩玩, 而在某天路上撿到一台 G13, 終於可以得償所願阿~~ 上圖是開我原本寫的 N52te 那篇文章, 可以比較看看..... 試用 G13 後, 發現有幾個很不錯或有問題的特色, 當然我是因為跟 Belkin N52te 來做比較: ...
-
這次參與資策會的社群力指標, 在前一篇的講 部落客百傑 的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
終於收到 活力藥師網 - Yahoo!奇摩部落格 , 來信詢問, 他對於他的 Blog 有如此多的人在觀看, 但名次如此低, 非常不解.... 事實上就記錄來看, 11/05 時是 5081(19.77%) 到 02/04 時是 4270(68.57%) 了, 換句話說是這三...
-
之前寫了一篇 "聲援" Mr.6 的文章, 事實上問我有沒有在看 Mr.6 的文章, 有沒有在去 Mr.6 的聚會, 當然是沒有的, 只是看到很多人為了打壓 Mr.6 Over-Rated (過譽) 而來 Under-Rated (過惡) 想來個持平的說法罷了...
單純是因為看到我blog的名稱....
回覆刪除