周末,給客戶做爬蟲封禁處理,總結(jié)了下以下幾個非常頻繁的惡意爬蟲,大家可以看著封禁,只有好處,沒有壞處。
以下是關于這些爬蟲的介紹:
GPTBot
- 開發(fā)商:OpenAI
- 發(fā)布時間:2023年8月7日
- 功能特點:GPTBot是OpenAI推出的一款網(wǎng)絡爬蟲機器人,該工具能夠在注重版權(quán)的基礎上,使用透明的方式收集網(wǎng)頁信息,來訓練OpenAI旗下的各AI模型。和其他所有網(wǎng)絡爬蟲一樣,它從互聯(lián)網(wǎng)上搜集能夠用于訓練AI模型的有用數(shù)據(jù),但不會收集需要付費的、或者違反隱私政策的數(shù)據(jù)。此外,網(wǎng)站所有者還可以選擇限制或者禁止GPTBot爬取網(wǎng)頁數(shù)據(jù)。
AmazonBot
- 所屬公司:亞馬遜公司
- 功能特點:AmazonBot是亞馬遜不同廣告服務部門使用的爬蟲,包括Amazon AdBot等,用于確定網(wǎng)站的內(nèi)容,以便提供相關和適當?shù)膹V告。它只抓取亞馬遜或廣告商合作伙伴可能提供廣告的網(wǎng)站,并遵守robots.txt協(xié)議。此外,AmazonBot還用于改善亞馬遜的其他服務,例如使Alexa能夠回答更多客戶的問題。
PanguBot
- 開發(fā)商:華為
- 功能特點:PanguBot 是由華為公司開發(fā)的一個爬蟲,主要用于下載訓練數(shù)據(jù),以支持其多模態(tài)大型語言模型(LLM)PanGu 的訓練。PanguBot 的設計目標是通過繼承預訓練語言模型(PLM)PANGU-alpha 的寶貴語言能力和知識,以相對較少的數(shù)據(jù)和計算成本構(gòu)建強大的對話模型。
BLEXBot
- 開發(fā)商:WebMeUp
- 功能特點:BLEXBot是WebMeUp的蜘蛛爬蟲,每天可以抓取上百億個頁面來收集反向鏈接數(shù)據(jù),并將該數(shù)據(jù)提供給其鏈接索引(在SEO SpyGlass中使用的鏈接索引)。它是美國的一家外鏈反向鏈接查詢工具網(wǎng)站所使用的爬蟲。
DataForSeoBot
- 開發(fā)商:DataForSEO
- 功能特點:DataForSeoBot是DataForSEO網(wǎng)站的蜘蛛,旨在向世界各地的SEO愛好者和專業(yè)人士提供高質(zhì)量的數(shù)據(jù)。它的使命是通過確保SEO社區(qū)的每個成員都能訪問Google排名算法的核心元素來公平競爭。DataForSEO機器人正在開發(fā)網(wǎng)絡上最大的可用反向鏈接數(shù)據(jù)庫。
SemrushBot
- 開發(fā)商:Semrush
- 功能特點:SemrushBot是Semrush發(fā)送的用于發(fā)現(xiàn)和收集新的和更新的Web數(shù)據(jù)的搜索機器人軟件。它收集的數(shù)據(jù)用于維護公共反向鏈接搜索引擎索引、站點審核工具、反向鏈接審核工具、鏈接構(gòu)建工具等多個SEO相關工具。SemrushBot的抓取過程從網(wǎng)頁URL列表開始,根據(jù)一組Semrush策略重復訪問,以有效映射站點以進行更新。