近年來(lái),“網(wǎng)絡(luò)爬蟲(chóng)”作為一種能快速精準(zhǔn)地獲取數(shù)據(jù)信息的基礎(chǔ)性網(wǎng)絡(luò)技術(shù),得到了越來(lái)越多的青睞和應(yīng)用。那么它到底是一個(gè)什么東東呢?
“網(wǎng)絡(luò)爬蟲(chóng)”到底是個(gè)啥?
“網(wǎng)絡(luò)爬蟲(chóng)”又稱(chēng)為“網(wǎng)頁(yè)蜘蛛”,它是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)(無(wú)數(shù)個(gè)網(wǎng)絡(luò)站點(diǎn)和網(wǎng)頁(yè)的集合)信息的程序或者腳本。
爬蟲(chóng)作為搜索引擎的核心部件,大多用于整合收集萬(wàn)維網(wǎng)(無(wú)數(shù)個(gè)網(wǎng)絡(luò)站點(diǎn)和網(wǎng)頁(yè)的集合)上承載的大量信息,這類(lèi)爬蟲(chóng)會(huì)遵循網(wǎng)站與爬蟲(chóng)之間的“君子協(xié)議”-robots.txt文件,網(wǎng)站通過(guò)robots協(xié)議告知爬蟲(chóng)可抓取的頁(yè)面。遵循“君子協(xié)議”且以合理頻率爬取網(wǎng)站內(nèi)容的爬蟲(chóng)被稱(chēng)為“善意爬蟲(chóng)?!?/span>
是“益”蟲(chóng)也是“害”蟲(chóng)!
但隨著信息爆炸時(shí)代的到來(lái),數(shù)據(jù)信息的重要性與日俱增,灰黑產(chǎn)業(yè)鏈催生出大量的不遵循“君子協(xié)議”的“惡意爬蟲(chóng)”。如節(jié)假日時(shí)段,搶票爬蟲(chóng)惡意爬取出行網(wǎng)站數(shù)據(jù),進(jìn)行大量搶票。
公考查分時(shí)段,爬取當(dāng)?shù)卣榉志W(wǎng)站使考生無(wú)法正常查分,隨后通過(guò)提升虛假查分網(wǎng)站的權(quán)值,誘使考生在本站查詢(xún)分?jǐn)?shù),從而竊取考生的考試成績(jī)信息與身份信息。
并且有大量、反復(fù)、且高頻率爬取電商網(wǎng)站攫取他人商品數(shù)據(jù)進(jìn)行不正當(dāng)競(jìng)爭(zhēng)等。這類(lèi)“惡意爬蟲(chóng)”大多具備高頻率高并發(fā)的特性,近乎于DDoS攻擊的請(qǐng)求頻率會(huì)影響正常用戶(hù)的訪問(wèn)體驗(yàn)甚至使服務(wù)器宕機(jī)。
網(wǎng)絡(luò)爬蟲(chóng)合法性的討論仍然存在,情況也比較復(fù)雜。目前許多問(wèn)題還處于模糊地帶。然而,可以肯定的是,只要有互聯(lián)網(wǎng),就會(huì)有網(wǎng)絡(luò)爬蟲(chóng)。只有網(wǎng)絡(luò)爬蟲(chóng)讓體量巨大的互聯(lián)網(wǎng)變得可以搜索,使爆炸式增長(zhǎng)的互聯(lián)網(wǎng)變得更加容易訪問(wèn)和獲取,在可預(yù)見(jiàn)的未來(lái),互聯(lián)網(wǎng)爬蟲(chóng)技術(shù)將繼續(xù)得到發(fā)展。
但是對(duì)于網(wǎng)站的運(yùn)維人員來(lái)說(shuō),他們對(duì)爬蟲(chóng)來(lái)說(shuō)是又愛(ài)又恨,既希望善意爬蟲(chóng)為自家站點(diǎn)增加曝光度,又不希望惡意爬蟲(chóng)天天過(guò)來(lái)找麻煩。故在區(qū)分人為訪問(wèn)和爬蟲(chóng)訪問(wèn)的基礎(chǔ)上,進(jìn)一步辨別善惡爬蟲(chóng)成為解決爬蟲(chóng)困擾的關(guān)鍵。
天融信WAF懲“惡”除“奸”啦~
此時(shí),一位名為天融信Web應(yīng)用防火墻系統(tǒng)(TopWAF)的靚仔低調(diào)路過(guò)。對(duì)于解決惡意爬蟲(chóng)危害,他有何妙招呢?
首先,TopWAF內(nèi)置完備爬蟲(chóng)防護(hù)規(guī)則,同時(shí)支持自定義爬蟲(chóng)指紋,結(jié)合智能攻擊檢測(cè)引擎,可精準(zhǔn)識(shí)別當(dāng)前流行通用的爬蟲(chóng)核心指紋。
其次,TopWAF可導(dǎo)入Web站點(diǎn)的“君子協(xié)議”-robots.txt文件,快速區(qū)分正常爬蟲(chóng)與惡意爬蟲(chóng)。針對(duì)符合robots.txt的爬蟲(chóng)程序可任其按照網(wǎng)站的要求進(jìn)行部分內(nèi)容抓取,對(duì)于不符合協(xié)議的惡意爬蟲(chóng),TopWAF進(jìn)行即時(shí)阻斷,降低網(wǎng)站帶寬負(fù)擔(dān),防止惡意爬蟲(chóng)程序?qū)е抡军c(diǎn)系統(tǒng)癱瘓。
- 關(guān)鍵詞標(biāo)簽:
- 天融信 TopWAF 網(wǎng)絡(luò)爬蟲(chóng)