2012年5月8日 星期二

The New 部落客百傑 社群力指標 的一些設計想法

這次參與資策會的社群力指標, 在前一篇的講部落客百傑的文章已經講個大概, 但我知道很多人看了還是一頭霧水, 其中最主要的一個東西就是 "社群力指標", 雖然這指標明眼的人一看就是我一直在強調的 "Index/指數" 在實用上是很重要的價值.

先不談一個更重要的命題, 也是大家在疑問的: "明明是部落客, 為甚麼要看其社群經營", 尤其這命題跟我平常講的: "內容是最重要也是最基礎的價值" 不是相違背嗎? 但這個問題可能不是寫兩三篇就講的完的, 且我知道也有很多人都知道也都會寫, 所以當我看完大家的回應我再來補充.

這篇是來講些數學課, 以及數學之外的 "限制".

雖然這次社群力是我提出這構想以及規劃的, 但不是由我一個人決定的, 甚至我知道其中有一個同事所做的 "價構完成" 貢獻比我大很多 (若他願意曝光我會加連結), 更重要的這次計算的程式設計我都沒下去寫, 因為我最近都只用 PHP 與 Python/C 阿.

當然知道我 "惡趣味" 的人都知道我對 "綜合指標" 有一定的偏好, 這次的社群力也是種標準的綜合指標, 尤其是我知道當 Klout 做出來後, 要做得比他好, 或者是只在台灣做雖然不須要上億的資金, 但也不是那麼簡單, 尤其是這種綜合指標的困難不只是在公式, 而是在抓取的功夫, 所以若沒有創研所這樣的人力資源, 還真的做不出來.

因此在很邏輯的定義出社群力的四面向後, 接下來的討論是下面幾個:

1. 目前在這次的部落客百傑能夠完成多少數值的計算?
2. 以目前的資源能夠承擔多少的附和?

基本上這專案當然不可能有 Klout 等級的資金與資源, 甚至應該說在這樣有限的資源與人力要如何達成這樣的任務與挑戰就變成最大的 "限制".

除此之外, 雖然這社群力指標雖然在未來是一個 "持續性的服務", 但現在要實作的是 "階段性的部落客百傑", 因此在這段時間內又會有兩個限制:

1. 這段時間內盡量不要改變演算法去影響比賽的一致性.
2. 已經對外說明這個分數在這段時間是累積不會降低的.

在了解這樣的限制後, 我們在設計一個指標通常要避免一些事情.

1. 要讓每一筆資料都能夠具有判別力, 或者說有意義.
2. 不能讓一筆資料有太大的決斷, 也就是不能只靠他就可以決定.

因此綜合指標通常設計一定不是算數平均, 一定是幾何平均或調和平均之類的, 不然也會將數字做尺度與次序的轉換, 就像是部落格觀察都是以排名為基礎的原因, 但最好的方式可能是做 "Distribution Normalization", 也就是依分布來標準化.

事實上原本希望這次不要用次序轉化, 而是要做分佈標準化, 但這方法的變動性相當高, 不只分數會跳動, 甚至會下降具有不穩定, 造成給大家有不一致性的感覺, 因此用了最有趣的計算就是對最高值做限制, 避免一個分數因為過大造成整個指數被這個分數來決斷判定, 尤其是 "人氣" 這個數字即使取了對數, 但大家的差別還是會相當大, 所以做了一個有上限最大值的 "區間" 轉換.

這個社群力指數就是由四項 0 分到 25 分加總起來的, 因此最高不可能超過 100 分, 這也是因此看得出有上限的設計, 雖然現在不少人看到人氣值偏高, 專業度都偏低, 但在整體而言由於上限的設計, 反而讓專業度的決斷力增加, 人氣值的影響力反而不是那麼跟大家所想的那麼重要, 但也不代表這數值不重要, 也一樣重要.

雖然現在大家對這機制最大的質疑不只是計算方式, 而是更新沒有那麼即時甚至會抓錯或抓不到的狀況, 或者是判別類別的問題, 這部份才是最大的挑戰, 若這是我自己一個人做的話, 我雖然會做到即時, 但一定會避免這件事, 畢竟這要花的工夫以及解決的困難度是相當高的, 甚至這套系統可以說是由 10~20 人去完成其架構的, 無論要去統合與完成, 都沒那麼簡單.

這些其他部份就以後再說, 因為我知道很多人看到這邊已經頭昏眼花了.

7 則留言:

  1. 您好,

    首先請您猜猜看, 哪格是美食類第四名?

    http://www.wretch.cc/blog/snowsavory

    http://kthu1031.pixnet.net/blog


    個人淺見, 不該只取前10評審.依目前競賽方式,

    評審只能看到10強文章及內容, 格友們準備的

    5篇文章形同虛設, 會 "點進去看" 的絕大多數

    是該格的擁護者 (如您所知,為增加 S-Rank值)

    金馬.金曲 評審不都是全程參與? 只能說這樣

    的比賽方式以電影為例, 是選賣座電影(票房)

    而非優質電影.

    依照目前的比賽規則 -

    10強永遠是同一批人, 優質的新進格友不可

    能有機會出頭.因為- S Rank 中的值大家都

    會增加, 而10強因高曝光率會增加得更快...


    依結果論, 這格目前是美食類第四名 -

    http://www.wretch.cc/blog/snowsavory

    只要有心, 進十強機率頗高.

    您覺得評審及其餘參賽者會做何感想?


    每一筆資料都能夠具有判別力,或者說有意義?

    內容是最重要也是最基礎的價值?

    您覺得? 願聞其詳 ...

    Best Regards,
    唐吉訶德 crazydonquijote@gmail.com

    p.s. 1. 您願意花點時間去了解的話, 會發現, 目前此賽事已成 "灌票大賽" .

    2. 亡羊補牢, 時猶未晚, 請評審加入複賽, 還給大家一個公平的賽事.

    回覆刪除
  2. 前輩加油!雖然我沒有參加這次活動,但是我知道這工作的難度,如你文章所談的。在資訊檢索中,把資訊量化成為數字,本來就是一件比較難的工作了,更何況這是一個大型資料串流的工作~

    回覆刪除
  3. To 唐吉訶德:

    呵, 您還沒說我們早就在解決了那個美食第四名的問題了..., 就我所知 Crawler 以及 Semantic 那邊還是有 Bug 以及不足的地方, 解決中, 倒不是因為你說的人氣或投票所造成的影響....

    金馬獎金像獎事實上也沒有每一部報名的都被評審看過, 你會相信一個人能在工作之餘一個月看完 500~1000 部電影嗎, 這代表平均一天要看 33 部電影, 這不只是晚上看不完, 連 24 小時不睡覺也做不到阿~~

    就像是要讓評審去看 200 個部落格來決定第一名是沒甚麼必要的, 而應該在入圍之後花更多心思在這幾個身上更有意義, 甚至複選時的同儕 Review 有時會比只有幾個評審的意見來得更重要, 這反而是我更期待的.

    五篇文章只是避免遺珠之憾, 給讀者以及同儕 Review 時參考才是最重要的意義, 決選時評審不會只看這五篇文章....

    在目前配分狀況來看, 投票只能讓有小差距的人因為這方式有優勢, 但基礎分數 (內容散播, 社群影響) 還是占大部份, 從前幾名來看灌票者無法獲得優勢就可以看得出來.

    btw, 最後取前 10 名是抓約數, 只要是分數差距不到評審可以決定第一名的距離, 都會進入決選, 因此到時會依當時的分數會取 8~20 名也說不定, 但肯定不會是 200 個那麼多.

    回覆刪除
    回覆
    1. 辛苦了, 感謝您百忙中播冗回覆, 您所說的可以理解、也能接受。

      恕我表達的不夠清楚, 我所謂的 "灌票大賽" 非單指人氣一項, 正確來說應

      該是 “配票大賽”, 如何分享文章、相互按讚, 想盡辦法取得高分, 已成格友間最

      熱門的話題, 這是您希望的(設計中的預期功能-格友大團結), 還是比賽已走樣?

      若真有配票情形(公開的秘密), 人數多的平台會佔絕對優勢, 聰明如您, 我應該

      無須贅言. (我必須強調, 灌票、配票無所謂對錯, 純粹討論比賽規則與方向.)

      就我所知, 一般讀者都有既定的支持對象, 而同儕在比賽期間實為競爭

      者(不同平台尤其明顯), 忙著配票、按讚都來不及了, 哪有時間靜心觀看所謂的

      五篇文章?

      另, 對於小弟所擔心的 "10強永遠是同一批人, 優質的新進格友不可能有機會出

      頭..." 一事, 系統如何應對? 可否指點。

      匆忙回應, 言不及義處, 請多見諒.

      Best Regards,
      唐吉訶德

      p.s. 小弟並未參賽, 亦非格友, 只是個吃麵喊燒的啦啦隊.

      刪除
    2. 在還沒開始我們就看到有幾個有計劃系統性的互相 "鼓勵", 幸好投票那邊比例並不高, 目前看沒有太大影響, 因為知名度高以及既有經營的社群的效果, 比一時性的配票有效多了, ....

      同理所謂平常就有在持續認真產出好文章的, 跟本不須要這五篇文章, 至少很多前面名次的都是可以叫得出名號, 也都有看過, 這五篇反而是給對這產業較不熟的人用的小指引...

      而最後一個問題是這比賽的確會協助大家升一級, 增加曝光機會, 也就是 C 咖變 B 咖, B 咖變 A 咖, A 咖變 S 咖, 而真的超 S 級的人比較不會來這邊報名, 透過這機會, 10 強的確一定會有 3~5 成的變化, 也是我們期望的活躍與預期, 但那些 "優質的新進格友", 我們也是希望他們透過這機會提升, 明年就不是 "新進格友" 了, 而是 10 強的候選人... 畢竟部落格的經營不是短時間的幾篇好文就能夠成形的, 是須要論好幾年的.

      刪除
  4. “網路無隱私” 格友們的動向自然難逃網管法眼; 這個比賽也不會有一夕成名(最佳新人獎),
    只有一步一腳印、媳婦熬成婆,也就是回歸到“內容是最重要也是最基礎的價值,這樣說對吧。

    欣賞您快人快語、實問實答的風格, 小弟也就直話直說了 -
    第二階段在評審不加入及運作棄保下(推薦投票比賽截止前皆可進行更改),
    可以預見大平台會包辦前面的名次, 這樣的結果是您所預期(用BSP彌補),
    格友能接受的嗎?

    再次感謝您百忙中撥冗回應, 言盡於此.
    僅祝 賽事圓滿成功 !

    唐吉訶德

    回覆刪除
  5. 複賽名單揭曉, 幾家歡樂幾家愁。

    雖然此次賽事仍有許多改進的空間,但,
    官方想辦好此賽事的心是可以相信的,

    『原先複賽200名,到決賽剩下10名,
    現在是複賽200名,決賽可能30~40名。』
    光就這點,主辦單位就需花更多的經費與人力來執行.

    承認執行上的疏失、修正既定的政策, 需要極大的勇氣,
    更需要有擔當的主事者, 小弟雖天生反骨, 也不免要幫
    您及工作團隊按個 “讚!”

    請格友們 -
    抱怨之餘, 別忘了給主辦單位一些鼓勵的掌聲.
    在各位為名次努力之餘, 也別忘了寫格的初衷.

    無求品自高! 共勉之.

    Best Regards,
    唐吉軻德

    回覆刪除

熱門文章