事實的真相
我們必須聲明,噗熱浪絕對、從來沒有以該網站所 稱之方式,進行所謂竊取的動作,在噗熱浪上的所有熱門轉噗網頁記錄,都是經過我們自行開發的程式所計算出來的結果,絕對 不存在所謂「接水管」的行為,我們也不能接受如此的指控。那麼,誤會是如何造成的?當然我上一篇有人叫我只寫下面一段就好:的確,我 們的程式曾經造訪過該網站,但絕不是全面性的抓取該站資料。由於在噗熱浪網站會對被轉噗的網頁進行和搜尋引擎類似的內容 摘要動作,並且對其內容作分類,以便在噗熱浪上讓網友有更完整的參考資訊,這也是噗熱浪目前和該網站最大的不同之處。因此當噗熱浪計算的熱門網頁中,出現 該網站之網頁時,程式便會前往造訪該網站,並進行網頁部份內容摘要,這個動作在程式裡對所有網頁的處理是一致的,並沒有針對性。
也就是 說,該網站提出的證據是真實的,但並不等同於噗熱浪去盜取該站資料,只是該站的網頁被轉噗了,程式就會前往造訪,用意絕不是盜取那些資料,然後放到噗熱浪 上來。更何況,以這種方式獲得的資料量,和目前噗熱浪所處理的資料量,差距很大。相關技術說明,可見噗熱浪技術顧問所提出之說明 http://geneoralspeaking.blogspot.com/2010/08/blog-post_22.html。
因此所謂這 7000 筆抓取, 就是 Plurktop 的網頁與網站被推噗 (且進資料庫) 的網頁數, 而我們是去抓這網旨的標題與內容去做分類..這兩段事實上是大同小異的...
當然最後剩下來討論的是 "OK, 你們即使不是接水管的 Backend 的資料來做的, 但你們還是有來抓資料, 這個不是應該打招呼或事後道歉嗎? " 這樣的議題, 例如有人說: "不要把人當笨蛋了,你爬mmdays的資料還沒跟mmdays道歉... 如果說人家摸你東西你無所謂,不代表你摸人家就ok 模糊地帶本來就該以和為貴..." 出這樣嚴重的事, 當然我說我當然願意道歉, 只是我剛看了一下, 我這個部落格也被爬走了標題, 這樣是否他也該發個道歉啟事呢?
我很肯定這不是從我的噗抓到的, 因為我的噗沒也截圖, 原標題寫的是: 我原本很不想回應的, 但後來討論了之後還是得澄清一下 這樣的字句, 不用看 Log 也知道他們有來爬我的網站, 雖然這又拉回來了, 會不會是雙方在五十步笑百步或者這只是雙重標準呢?
(上面的截圖取自於 Plurktop, 但未經過同意, 所以我在此抱歉, 也希望對方對於此行為道歉?)
但這個是小事, 因為這種誤會說清楚就好, 就怕會有高道德標準的人開始延續戰火, 但這也還好, 最大的問題就是善後...
記得前一陣子有個姓邱的名嘴說過: "只要爆料的事情, 十件有一件是真的, 就對社會有意義, 更何況他是每十件有兩件是真的", 當然這句話是沒錯啦, 但比較可憐的另外八件事的苦主被冤妄後, 名譽受損, 工作丟了 , 家庭失和, 還付出一堆慘痛, 但唯一的作法大概只能在地上畫圈圈, 而邱先生大概只能說: "對不起, 為了這社會好, 你這犧牲是有代價的"...
我剛去噗浪河道看了一下, 未經過認真統計作了這樣的分析:
30%: OK, 我相信噗熱浪的確不是去接水管, 這件事是誤會.
20%: 看不懂你們兩方在說甚麼, 純看熱鬧.
10%: 雖然我知道大家在說甚麼, 但是否有更高的道德去保障甚麼呢?
40%: 你們噗熱浪好糟糕阿, "需要的結果一樣,所以直接偷接"
雖然就數字上來看, 有 4 成的人已經接受噗熱浪的說法, 但還是有相對應的人信任 MMDays 與 XDite 的說法, 因此看得出來他們真的具有很高的影響力阿....
因此我相信最後他們即使願意澄清, 但我也只好去趕緊找塊較大的地來畫圈圈了.
PS. 雖然這不是甚麼 "作賊心虛", 但應該會把 Plurktop 的 IP 封起來, 雖然他們被不少人推噗, 即使想要保持資料的完整性, 但別人不想要的話還是要尊重別人, 因此若是他們的網頁若是進到排行榜, 就來弄個 : "這個 Plurktop 的網站的標題不想被人抓" 的標題好了... 呵呵.. (這句話是亂入)
我來用我的解讀來翻譯一下..
回覆刪除噗熱浪和PLURKTOP都是用機器人來抓取所擷取到的url,
plurktop認為那7000多筆資料全都是噗熱浪為了抓取plurktop處理過的資料而來的
但是噗熱浪這邊認為是機器人是為了抓取pu出來的url,而連結到plurktop的網頁內容(因為兩邊都會針對pu出來的url做網頁的處理)
差別在於後者算是正常的處理內容.前者則是原封不動的重置放到網頁上,
後者就好像google和yahoo搜尋引擎,都會互相爬到對方的網站,也會忠實的呈現出來,
但是前者則是像之前百度和google發生的事情,
google暫時停止服務,而百度也停止服務這樣,
不知道我的理解有沒有錯誤?
問題在於google, yahoo, baidu都是 search engine。要不要讓對方爬進去只是爽度問題。但是前提是,除了透過 domain 外還有 agent 可以知道是 crawler。不想被抓內容就可以避掉(當然有的 crawler 不遵守 )。
回覆刪除今天噗熱浪會去抓取別人網頁內的內容,也沒錯,因為是網友把網址從plurktop複製過去。不過 plurktop 就不知道那是機器人還是browser,這樣可能就會影響到 plurktop server 對他正常客戶端之間的處理速度和網路流量(如果他的server CPU time和流量都是要算錢的話)。至於噗熱浪有沒有設什麼特別 header or user agent 讓苦主知道,就從公布的 log 看不出來。