來源:數(shù)據(jù)觀 時間:2019-08-12 14:53:03 作者:姚皖黔
搜索引擎爬蟲可以檢索你的一切信息,并提供給其他用戶訪問。只不過因為robots協(xié)議的存在,搜索引擎爬蟲對自己的檢索范圍做了限制,所以它是善意的爬蟲。
隨著電子商務行業(yè)的崛起,比價的需求使得爬蟲有了更大的市場,不過大家爬別人的同時,并不喜歡自己被爬。畢竟被抓數(shù)據(jù)會使得自己在競爭中處于不利的位置,并且增加自身的服務器負擔,這無異于增大了運維成本。所以大家都覺得:寧叫我爬天下人,休叫天下人爬我。于是又誕生了反爬蟲。
后來“大數(shù)據(jù)”來了,無數(shù)互聯(lián)網(wǎng)從業(yè)者從中嗅到了商機。但是這些人手上并沒有大數(shù)據(jù),于是他們開始用爬蟲拼命地抓取互聯(lián)網(wǎng)上的數(shù)據(jù),然后做幾個PPT,用他們手中的數(shù)據(jù)去融資。
龐大數(shù)據(jù)的需求進一步激勵了爬蟲程序“野蠻成長”,這給整個互聯(lián)網(wǎng)帶來沉重的負擔。于是造成了“反爬蟲技術(shù)越強,就需要更多的爬蟲工程師”的循環(huán)……
某蟲(化名)是一家公司的爬蟲工程師,他這樣描述爬蟲工程師們的工作:“用蜜蜂來形容我們并不恰當,因為這種‘勤勞’并不被人喜歡。一般公司也不會說自己有爬蟲團隊?!?/p>
“雖然那些抓取的數(shù)據(jù)都是對外開放的,不存在侵犯隱私、網(wǎng)絡安全的問題,但那些服務器資源本來是為客戶服務,爬蟲作為不請自來、又吵又鬧的客人總是不受歡迎的,比起蜜蜂更像是蒼蠅,被到處驅(qū)趕。”
爬蟲工程師的工作
爬蟲最終目的是提供數(shù)據(jù),爬蟲工程師要做的就是編寫一個程序,這個程序會自動抓取并保存下獲得的信息。但與數(shù)據(jù)分析不一樣,爬蟲工程師一般來說是按照別人的需要去抓取數(shù)據(jù),至于數(shù)據(jù)價值的挖掘就和他們沒什么關(guān)系了。
但這工作并不像看起來這么輕松,不光要設法繞過別人的反爬措施,還要對抓下來的數(shù)據(jù)通過技術(shù)手段辨別真?zhèn)?。并且別人的網(wǎng)站一旦改版更新,原有的爬蟲程序很可能就不管用了,必須得隨著別人的技術(shù)迭代不停地升級爬蟲程序,更不要說還有各個公司之間的爬蟲工程師們隔空“斗法”。
某蟲:“在論壇上聽到同行分享過這樣的故事:說的是他們與競爭對手斗得難解難分,有一天對方在反爬蟲的代碼里寫下注釋:‘天天加班,老板給你加工資嗎?’工作組的成員才幡然醒悟。隨后經(jīng)過一系列的交流,雙方達成和解,當然這一切都是瞞著老板的。大家坐一塊談攏之后,工作就變得容易了很多,都給對方留了后門,方便對方爬自己,反爬蟲的工作就變成了一個形式。最多就是在交流群里抱怨:‘你們訪問頻率怎么這么高?’‘你怎么把接口給關(guān)了?’‘你們給的數(shù)據(jù)是不是有問題?’……”
現(xiàn)實中如果真能達成這樣的默契,那肯定是‘雙贏’的局面。雖然這個故事更多是逗趣的段子,但在爬蟲與反爬蟲的斗爭中,資源被無意義的浪費卻是不爭的事實。
當然,某蟲也從未擔心過自己會在未來某一天失去工作,對于公司來說,爬蟲工程師的意義卻依然十分重要,只是降低服務器負載這一點就足夠了。
爬蟲工程師眼中的數(shù)據(jù)
某蟲:“回想最初的自己,也是因為對唯數(shù)據(jù)論深信不疑才投身到爬蟲工程師的行伍中的。跟現(xiàn)在流行大數(shù)據(jù)一樣,只不過這股風吹到了社會大眾中去。在我看來,大數(shù)據(jù)的關(guān)鍵在于‘誰來用’,這比‘怎么用’更重要?!?/p>
爬蟲的最終目的是獲取數(shù)據(jù),數(shù)據(jù)的用途按現(xiàn)在比較流行的說法大致有網(wǎng)絡輿情監(jiān)測、客戶全景畫像、競爭對手分析、行業(yè)垂直搜索等,某蟲看來這還是沒跳脫傳統(tǒng)統(tǒng)計分析的范圍。
當然這些和一個基層爬蟲工程師沒什么關(guān)系,搶票、刷榜、找資源之類的項目才是大多數(shù)初學者最容易也最喜歡上手的方向,而且這些小項目確實會帶來不小的成就感,但是熱情衰退之后就發(fā)現(xiàn)數(shù)據(jù)這東西遠沒有自己想像的那么美好。
某蟲:“頭一次抓下來一些數(shù)據(jù)的時候,覺得自己太厲害了,像是自己洞悉了這個世界的所有秘密一樣。但隨著時間推移手里那些諸如招聘信息、某市租房信息、項目外包信息之類的數(shù)據(jù)漸漸塞滿了硬盤,到底也沒產(chǎn)生點經(jīng)濟價值,刪除吧也舍不得,畢竟費了功夫的?!?/p>
“有次一個(女性)朋友發(fā)來消息說:我參加一個比賽,幫我投一下票。稍稍一分析那網(wǎng)站,好弱的反爬蟲意識,我樂了。惡趣味被激了起來,花了一會兒功夫用Python寫好代碼,多線程模擬投票刷起來。不多時,我朋友已經(jīng)攀升至第一名?!?/p>
“很早以前在論壇上看到‘互聯(lián)網(wǎng)上50%的流量都是爬蟲創(chuàng)造的’時我還不相信,覺得夸張了。爬蟲是有用,但也不能有這么多需求啊。
隨著網(wǎng)絡媒體的發(fā)展,各種明星、網(wǎng)站流量造假的情況被媒體披露出來,背后的產(chǎn)業(yè)鏈逐漸浮出水面。聯(lián)系自己的工作內(nèi)容想一想,現(xiàn)在反而覺得‘互聯(lián)網(wǎng)上50%的流量都是爬蟲創(chuàng)造的’確實夸張了,怎么可能這么少,說90%都是輕的?!?/p>
回頭看大數(shù)據(jù)
對于一般大眾來說,大數(shù)據(jù)紅利、數(shù)據(jù)價值化、信息化社會賦能這樣的詞匯顯得虛無縹緲,都是聽得多見得少。而從事數(shù)據(jù)采集的某蟲卻這樣描述:“技術(shù)到底只是技術(shù),最后改變社會的,還是社會的行為主體自身?!?/p>
蟲:“早些時候,‘樂看免費小說’APP就是利用爬蟲非法抓取正規(guī)網(wǎng)站的資源然后免費提供給觀眾,再賺取廣告費。一個月賺了20多萬,這向大家展示了爬蟲技術(shù)蘊含的能量和反爬的重要性,當然他們很快被抓了并且賠更多的錢。”①
“而現(xiàn)在AI技術(shù)的發(fā)展讓爬蟲的攻防戰(zhàn)有種山雨欲來風滿樓的感覺,但談不上什么質(zhì)變,就目前來說其核心還是商業(yè)行為。
比如:抓取汽車之家論壇發(fā)言,對各種車型的車主做畫像;抓取天貓、京東、淘寶用戶評價,了解產(chǎn)品在消費者心目中的形象;抓取58同城房產(chǎn)買賣信息,預估房價走勢;抓取大眾點評、美團網(wǎng)的用戶消費信息了解周邊變化的口味。
這些歸結(jié)起來都是在描述一個群體的特征,針對性的做出決策,也就是客戶全景畫像。雖然在網(wǎng)絡爬蟲系統(tǒng)的支持下,很多非數(shù)據(jù)持有主體也可以對客戶相關(guān)信息進行實時采集、監(jiān)測,從而發(fā)掘潛在商機和預估風險。但這并不足以像‘工業(yè)革命’一樣改變社會。”
“2008年谷歌推出谷歌流感趨勢(Google Flu Trends)時,業(yè)內(nèi)許多人都將其視為大數(shù)據(jù)淘汰傳統(tǒng)分析方式的一個標志。然而隨后的豬流感出現(xiàn)完全沒有被它預告,反映的事實就是技術(shù)的進步并沒有達到能改變社會的程度。很多人將現(xiàn)在的困境描述成數(shù)據(jù)非機構(gòu)化、數(shù)據(jù)孤島或是大‘薄’數(shù)據(jù),我也十分認同。
要解決這個問題,之前被經(jīng)常用來勸告‘技術(shù)宅’的那句‘多出去走走’興許就是藥方。
舉個例子:前段時間看到新聞,大數(shù)據(jù)+尋親幫助了很多失散的家庭找回了親人,成效顯著。但進一步試想一下,如果政府部門的人口數(shù)據(jù)和醫(yī)院的數(shù)據(jù)都能相互‘多走動’,那被拐賣的兒童有沒有可能在第一次進醫(yī)院時就被找到呢?
也就是說,目前的大數(shù)據(jù)+尋親只是多了一種技術(shù)手段,而不是徹底顛覆了反拐賣模式。當然技術(shù)的積累肯定是發(fā)展道路上必要過程,但是也可以看出,所謂數(shù)據(jù)厚度、結(jié)構(gòu)化的問題,還是只能交由社會來解決,技術(shù)始終只是為了促成了各個社會主體‘走到一起’。
所以我說,目前的大數(shù)據(jù)是‘誰來用’比‘怎么用’更關(guān)鍵。”
責任編輯:陳近梅