2007年10月1日 星期一

Data Mining 是跟大量資料在博鬥

關鍵字在這個題目中有是 Data Mining 的一環, 而我在 甚麼不是資料探勘? 甚至否定數量不夠的計算中, 意義是不高的, 甚至也要在一定的時效性完成....

目前部觀門每天讀進 200 萬筆資料, 然後經過分析, 留下 20 萬筆資料, 也就是若一年下來, 依照這比例成長, 明年此時至少是每天 500 萬筆到 1000 萬筆資料, 因此可以說是一年至少 12 億到 22 億筆資料在運作...

此時還不包括之後使用者參與進來還可以增加更多有效資料, 就像是昨天部關門有 6 萬個點閱數以上 , 然後可以再進一步分析的更多, 但說真的, 這樣的資料, 要去計算與儲存都是一個很大的功夫...

且在計算時, 一定要考量到計算到一半狀況, 因為每一次資料的計算都可能是數分鐘到數小時, 因此在某方面要做 Incremental 循序性的計算, 此時要做到每次的計算可以延續之前的計算結果, 且隨時可以計算, 甚至要回溯到歷史的所有資料, 此時就是一個很大的挑戰 ...

甚至這還不是最大的挑戰, 而且要去計算這些, 須要在有限的機器成本下完成, 這個有限, 不要說是幾十萬, 甚至是在不到十萬下完成, 就像是部觀門, 現在機器成本只有 3 萬, 面臨這樣的點閱數與計算, 可以說是絞盡腦汁去完成...

當然這樣也不算是正常的, 畢竟有時錢是最簡單的東西, 做出有用的東西才是最難的, 雖然部觀門到底是對誰有用我不知道, 但對於我自許為喜歡觀察社會, 而做出影響社會的機制與系統, 怎樣也是要做出對自己有用, 也對他人有用的東西...


到目前為只, 這種關鍵字的觀察, 以及這個計劃與想法, 讓我思索與看到很多東西, 甚至通常說, 我是從這系統獲得最多的人, 包含這個部落格的點閱數也是像上圖與下面這樣子:

日期點閱次數文章數
2007-09-3032120
2007-09-2937960
2007-09-2849480
2007-09-2733881
2007-09-261070
2007-09-25670

當寫完長瀨茜後, 從 50~100 的點閱數變成 3000~4000, 好像是在騙點閱數的感覺, 雖然我不否認我在寫之前就知道會有這現像, 但我原本是估計從 50 跳到 500, 結果沒想到比 星光幫 的效應還要強, 因為當時這個站的點閱數最高也只有 1000 多一點....

要看有關 長瀨茜 的文章, 請到 Hsiao Collecition 吧, 畢竟這邊是在討論這件事, 不應該跟她與他搶功...

但有人問我到底如何進到部觀門呢? 請參考這篇 從"絡門"看關鍵字林 , 就有寫個大概, 有時我覺得這個功能 Widget 比部落格排名有意義多了, 畢竟當時也的確是比部落格觀察更早的企劃, 只是當時沒有完成而已...

沒有留言:

張貼留言

熱門文章