這篇比較多技術性的東西, 不想看的人可略過~~~
這個計劃最早是在去年 8 月部觀門做的時候, 就在想這就是一個有趣的 Semantic Web (語意網路), 所以有甚麼可以加值利用, 而在一次跟 jeph 的討論時, 我就想到這個可能性, 那時應該是 10 月左右吧, 只是當時歪頭想了一下, 這是一個很吃資源的計算, 所以在沒想到合理的演算法之前, 是不敢動工的~~~~
後來在做 w2o.tw 的計劃後, 就用到在 door 時就有用到的產出一個 include file, 事實上是一個寫好存起來的 array, 雖然這個發現當量大時, 也會極度吃資源, 所以也曾跟 wildcat 討論到這現像, 所以有時不該存成 array, 而是字串之類的, 然後再去 explode 吧...
只是此時就已經想到可以比較不吃資源的方法, 然後就是實作了, 但在陳冠希事件時, 我為了解決部觀門的 Loading, 真的是耗盡心力, 更何況還有其他的案子在 Run, 而在最近, 慢慢想開一件事後, 或許整個腳步要做調整之前, 想要完成的就是這個 "宅度計" 了~~~~
因為部觀門的關鍵字, 是以熱門為主軸, 而在熱門導向的趨勢下, 漸漸的產生所謂的八個大分類, 雖然當時寫分類時, 也是寫成 Relation 的架構, 所以也是 Network (網路) 的關係, 並沒有所謂大分類的必要性, 但分類的本質就是要產生關係, 有較薄弱的大關係與較強的小關係族群都是很重要的, 只是在負荷與操作介面 (UI) 還沒解決之前只有這八分類了.
當然, 這些數字都是 RSS 讀來之後去作分析, 也是基本的計數, 但說真的要做好一般化 (Normalization) 到更有意義也不是簡單的事:
1. 符合數量越多時, 自然是更高, 但不能成線性正比
2. 當一個關鍵字的字串長度越長時, 越難相符, 自然更顯著些
3. 一個關鍵字在所有的部落格量的比重也是要參考 (目前尚未寫入)
4. RSS 的篇數與長度也會影響計算的量 (目前尚未寫入)
最後這八分類有各自的分數後, 來看比例就是最後的百分比, 但百分比只是自我在做比較, 若是要做絕對量度的話, 還是要計算分數, 而最後也是用等比級數去做分級, 然後變成 "極度", "相當", "普通", "有點", "開始" 這五種, 以及沒有的第六種~~~
而最後列出這個部落格的代表字, 是以這個分類中分數最高的來顯示, 所以不見得是次數最多的一個關鍵字, 甚至有人以為這個系統有參考到 "搜尋" 的關鍵字, 事實上是沒有的, 因為這次是純作內容分析, 而關鍵字分析的成份分析, 的確在部關門的第二代改版中會包含在內...
只是, 到底甚麼是 "宅"? 我想這應該有機會可以好好討論, 畢竟這次用的網址刻意選用 Data Mining (資料探勘), 是有相當的原因的, 這個也可以之後再討論.
但現在我從搜詢引擎已經看到不少網友寫了介紹, 說真的他們寫的都比我好, 所以我這邊不會寫介紹與操作, 畢竟這是我的外行...
感謝下面幾篇:
【Blog】超準確真實部落格宅度計
永遠的真田幸村: 超準確真實部落格宅度計!
[BLOG] 你的部落格宅不宅!?
【宅度計】測試你的「部落格」宅不宅? 怎樣宅?
Wangtam: 部落格觀察推出“宅度計”
部落『宅』度大調查!
看看自己的部落格夠不夠宅--宅度計
超準確部落格資料探勘宅度計
甚至有人已經寫了 Gadget 出來了:
非官方宅度計貼紙
Anyway, Take it serious and take it easy~~~~
2008年3月19日 星期三
訂閱:
張貼留言 (Atom)
熱門文章
-
原本以為這程式是相當難寫的, 但在 AM 4:00 洗澡的時候, 仔細想想並不困難, 但應該說不困難的是在抓取, 但要顯示出有價值與意義的排行榜是相對困難的.... 後來花了不到半小時就有個雛型, 接下來就是顯示這排行榜, 而在昨天睡前 (AM 5:00) 時, 只是一個最近抓到...
-
現在是 3:42 分, 該睡了, 但一直想寫篇文章但都一直提不起勁, 大概是為了準備星期四博客來的會議, 讓整個心態與作息全部亂了, 在此時蛋捲個人站又掛了, 讓我的情續大概到了蠻低的低潮吧... 整個星期六日沒甚麼精神做事, 事實上大約在上星期二似乎就隨著部落格溫度計進到低點,...
-
從分家到現在, 我還是維持著兩個都有在更新的狀態, ... 也因為身份的關係, 也沒去說那家比較好... 但當天空吃下蕃薯藤後, 有好有壞, 但大多是壞處.. 1. 自由欄位最多 10 個, 事實上蠻不夠用的... 2. 輸入資料無法全選, 必須去動滑鼠去選擇... 3. 引用似...
-
剛很無聊的把噗浪的關鍵字趨勢圖畫出來, 大家有空可以去看看... 這是以話題的 "使用者比例" 為單位, 來跟自己比較, 若是去看原圖有週曲線, 月曲線以及最近一季的狀況: 但下面的圖當時是畫 4 個月 (因為當時也是這系統開始運作的時候), 以後會改半年. ...
-
這幾個月一直看各個媒體在臉書的表現, 可以發現各個媒體的使用者介面與政策, 都會影響新聞在臉書的行為, 雖然有時是讀者的屬性做決定. 而一則新聞有時不用從內容, 甚至不用人去 "刻意投票", 我們就可以從臉書使用者的 "讚享評" 就...
-
這個計劃最出是我交大管科系學長所發生的問題, 因為我寫了一篇文章後, 就跑去 Plurk 跟大家討論, 而他是屬於會使用網路但不會使用 Plurk 的人, 所以跟本不知道 Plurk 講了甚麼, 最後我只好把網址給他, 他才晃然大悟這兩個部份的落差, 所以跟我抱怨這件事, 因此我...
-
基本上我是屬於逃避加無所謂鄉愿型的人, 所以即使罵我我也很難生氣, 但還是會難過, 只是比較不會生氣... 所以這次會把回應關起來, 當然不是有誰在說我壞話, 因為這很常見也很習慣, 但最近真的 Spam 廣告訊息真的太多了, 所以先將回應暫時設成 "審核制"...
-
很多人說 Google 會跳舞, 但事實上是真的嗎? 我們從部落格觀察來看 " 不只是捷運日記 " 的數字吧.. 日期 Google Page Google and Yahoo Link 目前 242 / 576 723 / 83440 ...
-
今天臉書上有兩個藝人很紅, 一個是說 "My Hometown" 的張懸, 另一個是 "悍衛傳統道德" 的郭采潔, 因為她們的表態, 造成臉書很大的風波... 這兩件事剛好都是 "言論自由" 很好的例子, 一個是...
-
我剛去看 iTHome 的部落格後台, 看有那些連結連到我章, 其中一個大陸的 Google Search 我點下去看時愣住了... "點點看" 結果出現: G o o g l e 錯誤 很抱歉... ...您的查詢疑似來自電腦病...
作者已經移除這則留言。
回覆刪除