昨天一直被 James Skiky Hsiao 說林克傳說是一個很可怕的東西, 但畢竟工具是獨立的, 沒有善惡對錯, 無論做出來是可以成為鏟除萬惡的海軍軍艦, 還是變成給海賊王用最自由的海盜船, 這系統只能努力發展, 並不做任何假設....
經過跟李柏鋒與闇月鏡的討論及 co-work 後, 臉書連結分享排行榜勉強到達一個可以看的狀況, 且準確度也慢慢滿意了, 而昨晚完成的儀表板幾乎就是一個很實用的結果, 若有在追蹤我臉書的動態消息, 就知道這是一連串的改進的實作.
目前在林克傳說中, 看到有關 "分享" 的數字, 點進去就可以看到這個儀表版 (Dashboard), 其中分成幾個...
1. 基本資料: 包含第一週的曲線與分數, 包含擴散力, 以及三個主要的傳教士, 有關聯的關鍵字, 以及有關聯的連結.
2. 回看討論: 看到這個連結在分享時所發表的意見, 但過濾掉非公開的資訊.
3. 72小時線圖: 每小時的讓你看到這連結的臉書狀況
4. 一週日線圖: 除了可以看到第一週的資料, 也可以改成看到今天的線圖
5. 歷史資料: 這系統目前去臉書抓資料的詳細資料, 這是用來除錯用.
而在基本資料中, 有兩種分數要在這邊解釋:
1. 第一天與第三天佔比: 是指這個連結到現在, 第一天時與第三天所佔的比例, 通常前三天佔的比例不到 100% 或更低, 表示第四天之後還是有人持續的在按讚與分享, 評論, 也就是說這系統活得較久.
2. 擴散力: 由於前個分數會因為時間的推移改變, 也是以最新的資料去算, 即時參考的分數, 但要做檢討的話必須要是一個固定的數字, 因此擴散力是一個在固定前七天中, 那時累積 100% 的觀點, 前六天跟 100% 差距的百分比總和.
在這邊擴散力是一個理論值最高 100 分, 但實務上是 0~200 分的數值, 就觀察這擴散力的價值如下:
1. 50 分以下: 代表這連結幾乎沒有擴散力, 前三天之後就停止散播的狀態.
2. 50~100 分: 正常的連結, 第三天以後還是有人在分享.
3. 100 分以上: 最高可能不見得是第一天, 往往第二天與第三天之後還是有很強的力道.
但目前這幾個數字會出現前題是系統能夠在第一天就抓到資料, 有些連結的分享一開始較緩慢, 說不定到第二天第三天才會被計算時, 就無法計算這分數了.
而在李柏鋒的建議下, 算出這個連結最主要的三個傳教士, 也就是被最多人看到的分享者, 因為在實務上最有價值的是傳教士, 而不是第一個分享的意見領袖, 但寫到這邊覺得也是可以列出來.
而在商姐的發想下, 做出關聯文章的關鍵字分布, 從這邊可以看到這連結分享的因子分析, 其中包含是因為甚麼樣的議題, 甚麼樣的媒體, 那一個作者, 那一種族群的人在分享, 例如可以知道像這則討論有關 "馬後砲" 的事情導出一些人名, 只是這部份還要再做調整, 畢竟從關鍵字做分析到真的見解還是須要 "工人智慧" 的解讀.
最後就是關聯文章, 也就是分享這個連結的人也分享那些連結, 這也是資料探勘 (Data Mining) 的 Relation Analysis 出來的, 當然也做過這連結被多少人連結的正規化 (Normalization), 最後只呈現最近兩個月的連結, 因為人只對最近的新聞有感覺, 但還是有一個選項可以列出所有的連結.
上圖的圖例是取自 想捏爆可愛小動物的衝動是正常的嗎? | PanSci 泛科學 基本資料, 可以看得出來這連結第一天就抓到資料, 且到第三天還是有很多人分享, 所以擴散力超過 100 分, 主要傳教士除了泛科學粉絲團之外還包含鄭國威等人, 因子包含泛科學這媒體, 放生這關鍵字, 郭采潔與張德正這兩個人名, 而看後面的關連連結很明鮮多是科技科學相關文章, 以及科技大觀園, 科學不一樣等等網站.
這系統目前說實在的也只能說是 Preview 版, 也就是比 Alpha 好一點點, 所以請大家不吝給我意見與討論, 說不定我可以想到一種方法解答你的想法與問題.
訂閱:
張貼留言 (Atom)
熱門文章
-
在標題應該是這樣子的: (我的(你的(我的小城市))), 因為是在想我如何使用 (你我的小城市) 這個系統~~~, 當然還是在講 MyMiniCity .. 有點繞口.. 首先先講不是我做的部份, 在 Create My City 的 Forum 看到一篇, A List of ...
-
明明所謂的政治是所有人的事, 但在權力與媒體運作的情型下, 感覺政治只有政治人物才玩得起的遊戲, 難到真的是這樣嗎? 從臉書的掘起, 粉絲團現在變成所有政治人物展現實力的一個場所, 甚至現在的選戰運作理論分成三種力量: 1. 陸軍 : 看政治人物自己的實力, 人脈, ...
-
標題這句話怎模說呢? 在這次地震之前, Page Rank 是 6 的部落格有 15 個, 而算到剛剛, 目前有 13 個部落格的 PR 值是 6 分, 且其中有 7 個部落格是進步到 6, 這句話是說, 原本的 15 個 PR=6 部落格中, 只有 6 個是保持不變的, 這句話...
-
Weather.DataMining.Tw 做了一個多月了, 這代表資料也搜集一個多月了, 已經幾乎到可以發表的狀況了, 且有個記者朋友也真的寫了篇採訪稿, 但他跟我們講中央氣象局的人說我們的資料有問題, 我一面岔意一面檢查, 果然資料真的有問題. 雖然在這種抓資料的程式, 最麻...
-
這篇報導是在 http://tw.news.yahoo.com/article/url/d/a/100809/11/2ar0a.html 這裏, 到中午, TWNIC 的人就一直打電話給我, 而我還在會議中搞不太清楚是甚麼, 但就大意上面指的都是講了很多有問題的話, 而我一上...
-
很少在標題直接破題的, 因為說當天要寫的, 一晃眼又過了一個月, 雖然現在是比較心平氣和的看這件事情, 但有時還是會有點無奈. 這件事是發生在某個研討會上, 而大家都知道部落格觀察或部觀門都是看誰說得好, 大家在說甚麼的系統, 包含之後的 Plurk.tw, 我一直對於 Data...
-
用了 3.5G 以後, 最大的問題是若是沒有正常慢慢退出的話, 很有可能因為系統認為虛擬光碟還在, 所以不讓你休眠.... 所以此時比較好的方式就是先登出後再休眠, 只是要花較久的時間.. 而昨天當我按休眠後不給休眠, 我就按開關 7 秒鐘後直接關機, 沒想到第二天慘劇就發生了,...
-
上一篇還有很多沒寫到的地方: 1. 在最初的規劃這個數字是 Increamental 的, 也就是為了避免沒有抓到資料時的問題, 而這三種數字有兩個是一直增加的, 一個卻是在變化的. 2. 在第二組的距離, 事實上最後應該只會採用一個, 做一下 x*y*z 應該對資源影響不大. ...
-
在半個月前開始計算推噗次數, 現在來統計一下, 看有沒有出乎意料 Times Plurker Content 43 thebz1 推 房東很委婉的形容了,同學請� 30 formosadream is 彭醫師和您分享~目前最佳 賞� 27 jasonforce 推 IE6, 你給...
-
很意外的到了 2007 年, 因為心態好像 2006 年還有一大堆 ToDo 還沒做, 而因為前一個月跑去國立藝術大學的達文士吃晚餐, 發現那邊看 101 蠻清楚, 所以就決定跨年在那邊看.... 很幸運的在那邊是屬於一種很 High 但又不擁擠的感覺, 又有點人文藝術氣息且不...
沒有留言:
張貼留言