這篇比較多技術性的東西, 不想看的人可略過~~~
這個計劃最早是在去年 8 月部觀門做的時候, 就在想這就是一個有趣的 Semantic Web (語意網路), 所以有甚麼可以加值利用, 而在一次跟 jeph 的討論時, 我就想到這個可能性, 那時應該是 10 月左右吧, 只是當時歪頭想了一下, 這是一個很吃資源的計算, 所以在沒想到合理的演算法之前, 是不敢動工的~~~~
後來在做 w2o.tw 的計劃後, 就用到在 door 時就有用到的產出一個 include file, 事實上是一個寫好存起來的 array, 雖然這個發現當量大時, 也會極度吃資源, 所以也曾跟 wildcat 討論到這現像, 所以有時不該存成 array, 而是字串之類的, 然後再去 explode 吧...
只是此時就已經想到可以比較不吃資源的方法, 然後就是實作了, 但在陳冠希事件時, 我為了解決部觀門的 Loading, 真的是耗盡心力, 更何況還有其他的案子在 Run, 而在最近, 慢慢想開一件事後, 或許整個腳步要做調整之前, 想要完成的就是這個 "宅度計" 了~~~~
因為部觀門的關鍵字, 是以熱門為主軸, 而在熱門導向的趨勢下, 漸漸的產生所謂的八個大分類, 雖然當時寫分類時, 也是寫成 Relation 的架構, 所以也是 Network (網路) 的關係, 並沒有所謂大分類的必要性, 但分類的本質就是要產生關係, 有較薄弱的大關係與較強的小關係族群都是很重要的, 只是在負荷與操作介面 (UI) 還沒解決之前只有這八分類了.
當然, 這些數字都是 RSS 讀來之後去作分析, 也是基本的計數, 但說真的要做好一般化 (Normalization) 到更有意義也不是簡單的事:
1. 符合數量越多時, 自然是更高, 但不能成線性正比
2. 當一個關鍵字的字串長度越長時, 越難相符, 自然更顯著些
3. 一個關鍵字在所有的部落格量的比重也是要參考 (目前尚未寫入)
4. RSS 的篇數與長度也會影響計算的量 (目前尚未寫入)
最後這八分類有各自的分數後, 來看比例就是最後的百分比, 但百分比只是自我在做比較, 若是要做絕對量度的話, 還是要計算分數, 而最後也是用等比級數去做分級, 然後變成 "極度", "相當", "普通", "有點", "開始" 這五種, 以及沒有的第六種~~~
而最後列出這個部落格的代表字, 是以這個分類中分數最高的來顯示, 所以不見得是次數最多的一個關鍵字, 甚至有人以為這個系統有參考到 "搜尋" 的關鍵字, 事實上是沒有的, 因為這次是純作內容分析, 而關鍵字分析的成份分析, 的確在部關門的第二代改版中會包含在內...
只是, 到底甚麼是 "宅"? 我想這應該有機會可以好好討論, 畢竟這次用的網址刻意選用 Data Mining (資料探勘), 是有相當的原因的, 這個也可以之後再討論.
但現在我從搜詢引擎已經看到不少網友寫了介紹, 說真的他們寫的都比我好, 所以我這邊不會寫介紹與操作, 畢竟這是我的外行...
感謝下面幾篇:
【Blog】超準確真實部落格宅度計
永遠的真田幸村: 超準確真實部落格宅度計!
[BLOG] 你的部落格宅不宅!?
【宅度計】測試你的「部落格」宅不宅? 怎樣宅?
Wangtam: 部落格觀察推出“宅度計”
部落『宅』度大調查!
看看自己的部落格夠不夠宅--宅度計
超準確部落格資料探勘宅度計
甚至有人已經寫了 Gadget 出來了:
非官方宅度計貼紙
Anyway, Take it serious and take it easy~~~~
2008年3月19日 星期三
訂閱:
張貼留言 (Atom)
熱門文章
-
昨天在臉書的塗鴉牆朋友分享了一個 王美恩 的" 狀態更新 ": 今天在外面餐廳吃飯,旁邊一桌坐了五六位穿著制服的廚師在吃飯。 老大開講:「我跟你們說,要看警察打人就要看三立,要看學生丟石頭警察受傷就要看中天。」 小廚師問:「大哥,你都不看T...
-
以下的言論, 純以我是以一個工程師出身的網管, 也以做過 ISP 基礎建設的工作經驗來發言. 前一陣子有人提出取消手機網路不應該有吃到飽 (Flat Rate) 的奇想時, 有參與網路發展的人都知道, 這個固定費率的使用量是網路發展的推手, 或者是指標, 甚至是門檻, 若把這...
-
大概是在 2008~2009 年開始吧, 也大約是台灣媒體開始認真面對網路時, 原本這些媒體對網路是嗤之以鼻的, 但沒多久, 即使是電視新聞也不敢沒有網路版, 而報紙可是在更久之前早就已機攻城掠地了, 這也是當時明日報對網路最大的貢獻之一. 雖然這樣說, 賣紙本出版品的雜...
-
我是不做 "Me,too" 的, 但我知道粉絲團經營最重要的共同指標, 一個是觸及數, 另一個是互動數, 但這數字只有經營者知道, 即使從洞察報告可以看到你加觀察的幾個粉絲團, 最近文章的互動狀況, 但還是離真的狀況有點距離, 除外粉絲團可以比較的就是 &...
-
雖然台灣的資訊科技網站或部落格真的很多, 但仔細看, 不少都是 "全文翻譯" 國外的網站, 不加任何自己的想法, 不然就是為了寫而寫, 此時來看, 不要說是獨立思考的創見已經看不到, 連獨立寫作的內容已經消失了. 這篇文章我早在去年 11 月時就想寫了, ...
-
大家還記得我在兩個月前寫了一篇 " 如何用網頁到網頁的延伸閱讀, 取代網站的交互連結 " 的文章嗎? 裏面談到兩個可能的發展性: 1. 共通 Tag : 這個沒甚麼了不起, Technorati 就是如此, 雖然這是很好的東西, 可惜沒人用了, 只是...
-
這個交大機車的故事不是在講交大很機車, 而是交大為甚麼能夠騎機車的故事... 甚麼? 很多人認為交大校園有一個條機車外環道是天經地義的事? 事實上不然, 這是經過許多抗爭得來的, 因為上一篇哈巴狗事件有很多回響, 所以我這篇來繼續講古. 機車在交大可以說是個文化, 尤其以前竹東算...
-
原本是某 "B6a" 網友跟我講是不是透過 firefox 看, 很多人的自定 favicon 都不見了? 後來我看一下我自己的, 真的不見了.. 接著找 blogsearch, 看到一篇有人在說真的不見了.. 見 " Blogger disable...
-
在兩三年前, 跟 "史公" 聊到一個有趣的問題, 就是他感嘆台灣教育在結構上有很大的問題, 大部份的大學教育, 其課程都想教人成為頂尖的人物, 例如 "李安", 且很多學生也都的確以這為目標, 但我們都知道, 李安在沒當導演之前, 也當過好...
-
很多人以為 "同溫層" 現像是有了社群網站後才有的事, 畢竟社群網站讓這類型的現像更容易被發現與檢視, 但事實上這問題並不是現在才開始的, 在 1952 年就有人 (William H. Whyte) 提出一個心理學現像叫 " 團體迷思 "...
作者已經移除這則留言。
回覆刪除