IMHO, 黑貘來說: 噗浪 plurk 的關鍵字分析

2009年6月16日星期二

噗浪 plurk 的關鍵字分析

我應該也是一個 "Johnny 5" (Short Circuit/霹靂五號) 型的人, 基本上看到 "Data/Information" 就會覺得很有興趣的人, 開始用 Plurk 後, 就覺得這個在台灣比 Twitter 更有可以 Dig/挖掘出即時新聞的可能性.

當定義出 "噗浪力" 後, 接下來就是開始關鍵字分析與新聞挖掘的 Data Mining / Text Mining 的動作了, 在之前, 我還是用 "宅度計" 來做類似的工作在 Plurk 做分析看看:

Keywords	Times
南機場	1
桌遊	1
沙拉	1
關鍵字	1
南機場夜市	1
夜市	1
淡水	1

因為這只是個試作, 並還沒有去做甚麼資料清理 Data Cleaning 等基本動作, 目前還只是在資料搜集(Data Collecting) 的階段, 雖然已經有去抓上次 Plurk 的時間做輔助, 但第一次要跑完這 37000 筆資料, 還是有點吃力, 因此從昨天傍晚寫好, 到現在還在算...

上面是我的關鍵字分析結果, 網址是在 http://plurk.tw/mykeywords.php?username=genehong

當然關鍵字分析可以做為歷史資料外, 最重要還是用來做使用者的關聯分析, 除了上面說的回噗的交集度外, Text Mining 也是提供一種 Relationship 關係, 畢竟有在回噗在這點只是證明既有的關係, 意義不高, 而是找出與建立新的關係, 才是這個系統的重點, 例如目前就桌遊來做分析的話, Plurker 噗浪客就有:

Users	Times
皮西格	3
$追夢團投資長$愛爾文	3
Willy2	2
pokichen	2
Epin	1
Creya！可以呀	1
honG	1
birdy	1
黑貘 (Gene)	1

這個桌遊關鍵字示範在這邊....

當然剛剛算到現在, 已經算了 1/3 的資料, 並還沒有算完, 目前也是開放 3 天讓沒有加入 p2diary 的使用者可以看到資料, 但第四天後雖然可以看到那些 Plurker 噗浪客有對這議題/關鍵字有興趣, 但無法看到分析了...

接下來算完一遍, 還有三件事要做:

1. 關鍵字自動浮出系統
2. 噗友推薦系統
3. 噗浪話題歷史系統

之後就真的是可以完成即時新聞挖掘系統了....

IMHO, 黑貘來說

2009年6月16日星期二

噗浪 plurk 的關鍵字分析

沒有留言:

張貼留言

熱門文章

2009年6月16日 星期二

噗浪 plurk 的關鍵字分析

沒有留言:

張貼留言

熱門文章

2009年6月16日星期二