2014年8月6日 星期三

很可怕的臉書連結分享儀表板 (Dashboard)

昨天一直被 James Skiky Hsiao 說林克傳說是一個很可怕的東西, 但畢竟工具是獨立的, 沒有善惡對錯, 無論做出來是可以成為鏟除萬惡的海軍軍艦, 還是變成給海賊王用最自由的海盜船, 這系統只能努力發展, 並不做任何假設....

經過跟李柏鋒與闇月鏡的討論及 co-work 後, 臉書連結分享排行榜勉強到達一個可以看的狀況, 且準確度也慢慢滿意了, 而昨晚完成的儀表板幾乎就是一個很實用的結果, 若有在追蹤我臉書的動態消息, 就知道這是一連串的改進的實作.

目前在林克傳說中, 看到有關 "分享" 的數字, 點進去就可以看到這個儀表版 (Dashboard), 其中分成幾個...

1. 基本資料: 包含第一週的曲線與分數, 包含擴散力, 以及三個主要的傳教士, 有關聯的關鍵字, 以及有關聯的連結.

2. 回看討論: 看到這個連結在分享時所發表的意見, 但過濾掉非公開的資訊.

3. 72小時線圖: 每小時的讓你看到這連結的臉書狀況

4. 一週日線圖: 除了可以看到第一週的資料, 也可以改成看到今天的線圖

5. 歷史資料: 這系統目前去臉書抓資料的詳細資料, 這是用來除錯用.

而在基本資料中, 有兩種分數要在這邊解釋:

1. 第一天與第三天佔比: 是指這個連結到現在, 第一天時與第三天所佔的比例, 通常前三天佔的比例不到 100% 或更低, 表示第四天之後還是有人持續的在按讚與分享, 評論, 也就是說這系統活得較久.

2. 擴散力: 由於前個分數會因為時間的推移改變, 也是以最新的資料去算, 即時參考的分數, 但要做檢討的話必須要是一個固定的數字, 因此擴散力是一個在固定前七天中, 那時累積 100% 的觀點, 前六天跟 100% 差距的百分比總和.

在這邊擴散力是一個理論值最高 100 分, 但實務上是 0~200 分的數值, 就觀察這擴散力的價值如下:

1. 50 分以下: 代表這連結幾乎沒有擴散力, 前三天之後就停止散播的狀態.
2. 50~100 分: 正常的連結, 第三天以後還是有人在分享.
3. 100 分以上: 最高可能不見得是第一天, 往往第二天與第三天之後還是有很強的力道.

但目前這幾個數字會出現前題是系統能夠在第一天就抓到資料, 有些連結的分享一開始較緩慢, 說不定到第二天第三天才會被計算時, 就無法計算這分數了.

而在李柏鋒的建議下, 算出這個連結最主要的三個傳教士, 也就是被最多人看到的分享者, 因為在實務上最有價值的是傳教士, 而不是第一個分享的意見領袖, 但寫到這邊覺得也是可以列出來.

而在商姐的發想下, 做出關聯文章的關鍵字分布, 從這邊可以看到這連結分享的因子分析, 其中包含是因為甚麼樣的議題, 甚麼樣的媒體, 那一個作者, 那一種族群的人在分享, 例如可以知道像這則討論有關 "馬後砲" 的事情導出一些人名, 只是這部份還要再做調整, 畢竟從關鍵字做分析到真的見解還是須要 "工人智慧" 的解讀.

最後就是關聯文章, 也就是分享這個連結的人也分享那些連結, 這也是資料探勘 (Data Mining) 的 Relation Analysis 出來的, 當然也做過這連結被多少人連結的正規化 (Normalization), 最後只呈現最近兩個月的連結, 因為人只對最近的新聞有感覺, 但還是有一個選項可以列出所有的連結.

上圖的圖例是取自 想捏爆可愛小動物的衝動是正常的嗎? | PanSci 泛科學 基本資料, 可以看得出來這連結第一天就抓到資料, 且到第三天還是有很多人分享, 所以擴散力超過 100 分, 主要傳教士除了泛科學粉絲團之外還包含鄭國威等人, 因子包含泛科學這媒體, 放生這關鍵字, 郭采潔與張德正這兩個人名, 而看後面的關連連結很明鮮多是科技科學相關文章, 以及科技大觀園, 科學不一樣等等網站.

這系統目前說實在的也只能說是 Preview 版, 也就是比 Alpha 好一點點, 所以請大家不吝給我意見與討論, 說不定我可以想到一種方法解答你的想法與問題.

沒有留言:

張貼留言

熱門文章