這篇比較多技術性的東西, 不想看的人可略過~~~
這個計劃最早是在去年 8 月部觀門做的時候, 就在想這就是一個有趣的 Semantic Web (語意網路), 所以有甚麼可以加值利用, 而在一次跟 jeph 的討論時, 我就想到這個可能性, 那時應該是 10 月左右吧, 只是當時歪頭想了一下, 這是一個很吃資源的計算, 所以在沒想到合理的演算法之前, 是不敢動工的~~~~
後來在做 w2o.tw 的計劃後, 就用到在 door 時就有用到的產出一個 include file, 事實上是一個寫好存起來的 array, 雖然這個發現當量大時, 也會極度吃資源, 所以也曾跟 wildcat 討論到這現像, 所以有時不該存成 array, 而是字串之類的, 然後再去 explode 吧...
只是此時就已經想到可以比較不吃資源的方法, 然後就是實作了, 但在陳冠希事件時, 我為了解決部觀門的 Loading, 真的是耗盡心力, 更何況還有其他的案子在 Run, 而在最近, 慢慢想開一件事後, 或許整個腳步要做調整之前, 想要完成的就是這個 "宅度計" 了~~~~
因為部觀門的關鍵字, 是以熱門為主軸, 而在熱門導向的趨勢下, 漸漸的產生所謂的八個大分類, 雖然當時寫分類時, 也是寫成 Relation 的架構, 所以也是 Network (網路) 的關係, 並沒有所謂大分類的必要性, 但分類的本質就是要產生關係, 有較薄弱的大關係與較強的小關係族群都是很重要的, 只是在負荷與操作介面 (UI) 還沒解決之前只有這八分類了.
當然, 這些數字都是 RSS 讀來之後去作分析, 也是基本的計數, 但說真的要做好一般化 (Normalization) 到更有意義也不是簡單的事:
1. 符合數量越多時, 自然是更高, 但不能成線性正比
2. 當一個關鍵字的字串長度越長時, 越難相符, 自然更顯著些
3. 一個關鍵字在所有的部落格量的比重也是要參考 (目前尚未寫入)
4. RSS 的篇數與長度也會影響計算的量 (目前尚未寫入)
最後這八分類有各自的分數後, 來看比例就是最後的百分比, 但百分比只是自我在做比較, 若是要做絕對量度的話, 還是要計算分數, 而最後也是用等比級數去做分級, 然後變成 "極度", "相當", "普通", "有點", "開始" 這五種, 以及沒有的第六種~~~
而最後列出這個部落格的代表字, 是以這個分類中分數最高的來顯示, 所以不見得是次數最多的一個關鍵字, 甚至有人以為這個系統有參考到 "搜尋" 的關鍵字, 事實上是沒有的, 因為這次是純作內容分析, 而關鍵字分析的成份分析, 的確在部關門的第二代改版中會包含在內...
只是, 到底甚麼是 "宅"? 我想這應該有機會可以好好討論, 畢竟這次用的網址刻意選用 Data Mining (資料探勘), 是有相當的原因的, 這個也可以之後再討論.
但現在我從搜詢引擎已經看到不少網友寫了介紹, 說真的他們寫的都比我好, 所以我這邊不會寫介紹與操作, 畢竟這是我的外行...
感謝下面幾篇:
【Blog】超準確真實部落格宅度計
永遠的真田幸村: 超準確真實部落格宅度計!
[BLOG] 你的部落格宅不宅!?
【宅度計】測試你的「部落格」宅不宅? 怎樣宅?
Wangtam: 部落格觀察推出“宅度計”
部落『宅』度大調查!
看看自己的部落格夠不夠宅--宅度計
超準確部落格資料探勘宅度計
甚至有人已經寫了 Gadget 出來了:
非官方宅度計貼紙
Anyway, Take it serious and take it easy~~~~
2008年3月19日 星期三
訂閱:
張貼留言 (Atom)
熱門文章
-
說真的, 這次的低潮還算挺久的, 在某方面而言, 在做完 "宅度計" 之後, 就停下來了, 就最後的日期大概是 5/29 號前後吧, ... 這段時間唯一做的大概是 Google Trends 的數字計算, 那時是 6 月 23 日吧, 在之前的 6 月 5 ...
-
很多人知道我累了一陣, 也知道有部份的時間事實上是拿來打 Civilization IV, 但真的心思有點失焦是真的, 而在因緣際會的情型下, 到墾丁去散散心, ... 距離上次去墾丁大概是 1985 彗星來的那一年, 我舅舅開著車連夜到墾丁, 事實上到底有沒有看到哈雷, 我是不...
-
在 Search Rank (SEO) 納入 Users Signal (使用者訊號) 之後, Click Through Rate (CTR) 變成了一個不在只是 UI/UX 的最愛, 更是 SEOers 不得不提的事了. 當然 CTR 不是只有注重 SEO 的人才須要注意...
-
部落格改網址是最好不要的事, 尤其是對 SEO, 但畢竟我這個部落格本來就不是那種很多人會上來看的那種, 所以在某方面是不用太擔心這件事, 畢竟這個部落格的初衷是: "避免一件事講很多次, 所以寫成文章再叫朋友來看" 但對於 blogspot 這次...
-
這個標題原文並不是 SEO, 而是米塞斯 (Ludwig von Mises) 說的一句話: "若一個經濟學家只是一個經濟學家, 他肯定不是一個好的經濟學家", 而這個迷思 (Myth) 事實上可以套用在很多地方, 不只是經濟學家, 更不只是 SEO, ...
-
這一篇是寫給要來我家的朋友... 到我新家來借宿有幾種方式, 一個是搭船.... 1. 主要是搭任何一艘船, 能夠在 淡水碼頭 上岸的話: 就可以用走的走到我家... 上圖的 A 與 B 是相反的.. 雖然上面是寫 13 分鐘, 但事實上有 10 分鐘都是在漁人碼頭晃, 走出來不...
-
在過了短暫的墾丁之旅後, 該收心認真工作, 但似乎也只有一個星期... 這段期間因為 Engadget 的大總編 借我 3G Card, 所以在找吃的或住的是有派上用場, 也幾乎是隨時都可以上網, 但卻沒有停下腳步寫任何的 Blog... 但這次很意外的像這樣的 3G 在墾丁所...
-
先出場的是每天個人 Plurk 的資料如下範例 其中 username 為 plurk 的個人網址, border 則為 table 的邊, simple=1 則只會出現 plurks 數與 responses 數, 而 period=1 則會出現上次 plurk 與 respo...
-
只要是有文化, 只要是有歷史, 只要是有種族, 無論是人類 (或是魚人) 都很難擺脫歧視與被歧視的經驗, 而這經驗, 往往會根深蒂固, 很難改變, 甚至是不可能改變, 畢竟這些岐視的劃分與刻版印像都是從成長經驗所造成的, 因為所學, 所思, 所想, 所行為的都是如此, 要一個...
-
基本上我上一篇的 " 我為甚麼要 Plurk ? " 講出來了用 Plurk 的人並不是很多人都有在經營部落格, 所以前一篇的 " Plurk 的個人 Widget 開始... " 是挺沒有意義的, 因為這 widget 不能放進 plur...
作者已經移除這則留言。
回覆刪除