基本上, 我認為我在所謂趨勢觀察的水準是不該由前面數的, 尤其是對所謂部落格的了解, 我想我是不該跟別人爭的, 會寫那些文章多是有感而發, 或者是工作須要, 所以, 我還是會照寫, 感謝很多人的鼓勵, 包含 j2h, t4n, c10e, h4s 與其他很多人, 謝謝...
但這邊不是要寫如此肉麻的文章, 請略過...
而是要寫一個寫程式的過程, 就是如何在 3 秒中算出 3000 個部落格的趨勢...
也就是說, 一直說要寫, 但一直沒寫的: "今日點閱數預測", 這個說真的蠻無聊的, 就是基本的外插與內插, 但不一樣的就是到底要參考多少資料才能更準確呢?
在 Sitemeter 中, 有以時, 天, 週, 月的方式來組成一個矩陣, 基本上就是所謂的日均線, 週均線, 與月均線來回推的方法, 但即使是 Shinystat 也是一樣用均線的概念...
而我想寫的就是以每半小時來做七日均線, 然後以兩天內的資料來回推, 複雜度就高很多了, 但真正的挑戰也是要如何在 3 秒算出 3000 個部落格的資料, 其中大概要多存了約 500 筆資料才能算出來, 最後還要看能不能在 1~2 個 I/O 就算出這答案, 所以這個資料庫的規劃與流程還挺累的..
在剛剛大約做個雛型出來了, 雖然大家看到的就是自己 Blog 在基本資料多一個 "今日點閱預測", 但這個是每半小時更新一次, 且準確率算高的, 因為會參考最近部落個點閱狀況, 且以你自己的各自模型去計算, 完全沒有公用的資料與模型...
我當時為甚麼想做, 最主要是想做成一個 Google Tool Bar, 直接拉下來去觀察我設 "我的觀察" 的 Blog, 與其說是要去看名次, 我更想看到的是一些其他資訊, 其中就是目前點閱數, 預計點閱數, 以及一些文章資訊.
而文章資訊大概最近想說去完成, 但這也不是簡單的工程, 我想應該會改寫原本 Ping 文章數的程式, 而像更新排行資料那樣, 一個週期各自去抓, 我想這樣才是較對的, 所以當這個完成後, 許多資訊會慢慢有價值, 一個 Blog 的 Outline 的 Profile 就會漸漸浮現, 那就很有趣的...
但為甚麼要八天後才能公佈呢? 因為現在才開始儲存那 500 筆 Sample, 至少要一個星期後來看是否有漏失, 自動化有時間性的抓取總是困難 Debug, 唯一的方法就是等待時間的到來...
所以現在可能還不夠準, 但等八天後我相信準確度就很夠了 ...
2007年3月7日 星期三
訂閱:
張貼留言 (Atom)
熱門文章
-
最近很火紅的一篇文章就是: " 為什麼我甘願花 8 萬僱用法國工程師,也不給兩個台灣年輕人機會? ", 這篇文章點出很多問題, 其中是下面三項是重點: 1. 全球性市場後的台灣競爭力 2. 英文的重要性 3. 台灣正規資訊教育的問題 這三個問題應該...
-
"若有一個像噗浪一樣好用的系統, 但有小圈圈的功能, 我二話不說一定會跳過去..."---- GH404X, 2009 (噗浪第一年) 在 Google+ 襲捲台灣不到兩個星期, 噗浪在 Alexa 跌了一名, Twitter 留言銳減, Facebook 有...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
這次莫拉克風災不得不否認的是政府處理真的有暇疵, 但我也不得不幫政府說句話, 因為若不是網路的關係, 事實上很多事都不會被發現, 更不會放大檢驗, 只能說運氣太差了.. 讓我想到三個月遇到某個公務人員長官, 他在會議提出一個嚴正的抗議與意見: "你們發展技術的人是如此的...
-
專頁儀表板除了作為社群編輯的工具外,更想做的是想要成為 "透過社群來了解社會" 的儀表板,因此對於 "屬性" 上做了各個面相的定義,除了常見的分類外,更重要的是依立場,議題來去 "標籤"。 因此會有 "...
-
一些比較消息靈通的人都知道 Seednet 做了一個 TaiwanRank, 以自己用戶的使用狀況來作網站的另一種排名, 而目前推出的指標是 DNS 查詢數 及 不重覆IP 的兩個排行.. 有人問我這樣到底準不準阿? 事實上我常說, 沒有一種指標或觀點能夠覆概所有事情, 當然是越...
-
有人問我這次一例一休本來一開始民進黨如此的強勢, 但為甚麼如此呢? 記者對一例一休的文章數, 可以看到在 10 月之前有還是有在露出, 但在 10 月底才開始加碼... 主要是社群一開始沒甚麼熱度, 一直到 10 月底才開始... 即使是評論...
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
結果也算是公佈了...
回覆刪除http://myzilla.blogspot.com/2007/03/blog-post_08.html