當定義出 "噗浪力" 後, 接下來就是開始關鍵字分析與新聞挖掘的 Data Mining / Text Mining 的動作了, 在之前, 我還是用 "宅度計" 來做類似的工作在 Plurk 做分析看看:
Keywords | Times |
---|---|
南機場 | 1 |
桌遊 | 1 |
沙拉 | 1 |
關鍵字 | 1 |
南機場夜市 | 1 |
夜市 | 1 |
淡水 | 1 |
因為這只是個試作, 並還沒有去做甚麼資料清理 Data Cleaning 等基本動作, 目前還只是在資料搜集(Data Collecting) 的階段, 雖然已經有去抓上次 Plurk 的時間做輔助, 但第一次要跑完這 37000 筆資料, 還是有點吃力, 因此從昨天傍晚寫好, 到現在還在算...
上面是我的關鍵字分析結果, 網址是在 http://plurk.tw/mykeywords.php?username=genehong
當然關鍵字分析可以做為歷史資料外, 最重要還是用來做使用者的關聯分析, 除了上面說的回噗的交集度外, Text Mining 也是提供一種 Relationship 關係, 畢竟有在回噗在這點只是證明既有的關係, 意義不高, 而是找出與建立新的關係, 才是這個系統的重點, 例如目前就桌遊來做分析的話, Plurker 噗浪客就有:
Users | Times |
---|---|
皮西格 | 3 |
$追夢團投資長$愛爾文 | 3 |
Willy2 | 2 |
pokichen | 2 |
Epin | 1 |
Creya!可以呀 | 1 |
honG | 1 |
birdy | 1 |
黑貘 (Gene) | 1 |
這個桌遊關鍵字示範在這邊....
當然剛剛算到現在, 已經算了 1/3 的資料, 並還沒有算完, 目前也是開放 3 天讓沒有加入 p2diary 的使用者可以看到資料, 但第四天後雖然可以看到那些 Plurker 噗浪客有對這議題/關鍵字有興趣, 但無法看到分析了...
接下來算完一遍, 還有三件事要做:
1. 關鍵字自動浮出系統
2. 噗友推薦系統
3. 噗浪話題歷史系統
之後就真的是可以完成即時新聞挖掘系統了....
沒有留言:
張貼留言