育儿论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

防止网站被爬虫抓取的方法有哪些

[复制链接]

24万

主题

24万

帖子

0

积分

新手上路

Rank: 1

积分
0
注册时间
2022-4-28
发表于 2022-12-27 11:36 | 显示全部楼层 |阅读模式
防止网站被爬虫抓取的方法有哪些8 a, s) G/ |* w
; j- b+ Z  q6 I4 j
防止网站被爬虫抓取的方法有哪些
5 j3 a4 N% ]& W8 W2 ^$ i4 r$ N' Q" j0 q! m4 g/ Q3 Y, p
对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢?+ I  w4 a& P) i6 [" L; ?' Z3 B
3 g6 ?9 ]+ q! r/ r/ \
一、分辨爬虫的善恶
* O1 e2 b- @( f# W" O5 ?% F# P" [9 q) }- y
网络爬虫分为两种,一种是善意爬虫,例如百度、Google等搜索引擎的爬虫,另一种是恶意爬虫,它可能会利用网站漏洞,非法窃取网站数据,或者爬取网站内容,占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的,必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时,我们也希望能采取一些措施。. P: h" G- M- a' O- ~' w
! }6 {9 u$ Z  y
二、如何防止网站被爬虫?! q2 M$ B# x" a6 h4 c
  Y' A4 ^) S$ q3 H" n9 |7 P
针对善意爬虫,几乎所有的搜索引擎爬虫,都会遵守robots协议,只要我们在网站的根目录下存放一个ASCII编码的文本文件,告诉搜索引擎哪些页面不能爬取,搜索引擎的蜘蛛便会遵照协议,不爬取指定页面的内容。- C5 K' b% V7 W8 p, F
1 [# w3 U( j5 a; |) `
但是robots并不是一个规范,而是一种君子协议,它只对善意爬虫有效,并不能防止恶意爬虫。
; k+ e1 X6 |' K, T( u/ _8 t9 F5 D3 G) M% D
针对恶意爬虫,我们可以采取以下措施来识别和阻断它。$ u7 E& d/ U, a1 n  p! \, L
2 V+ A6 o3 [0 M, U9 A6 m
1.限制User-Agent字段+ z+ Q. h- y' n( r+ c# g

& ~, h" [  ]% M( s# R% ?; O5 uUser-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息,如果请求来自非浏览器,就能识别其为爬虫,阻止爬虫抓取网站信息。
7 c, y3 \4 q" U) x: R$ U. C" n( w" Z8 J( a9 u
User-Agent字段虽然有效,但对于精心构造的爬虫来说,效果并不好。攻击者可以通过在恶意爬虫请求的User-Agent字段中带上baidu字符,伪装成百度爬虫绕过这一规则,无法被拦截。0 h& T8 T/ P; }  q/ Q3 J$ ?
5 N7 ?8 C( |! O- t6 i9 p) i/ [
2.限制IP
6 }8 L6 H( Z/ a* r3 y6 U# T8 X# X7 K
限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。
4 L0 ?$ V3 m& f* e( \
: i) G: }8 A, K& \不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。
8 _5 M+ h, Q4 H0 K% i% r5 U& }0 L! b6 Z6 ^8 Z! h- g/ [5 Y! y
3. 添加验证码
* q# _9 E+ o1 f4 I* M. C1 Y% W  J# q7 f
在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。! Y/ p- e6 m8 {
  M3 [4 k% s: J; D% g; p

2 m; Y4 j. c4 h: _4 Q4 X. ?% Z1 O* u$ e" P6 m' D
原文连接:http://www.szw86.com/thread-9831-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|育儿网

GMT-5, 2025-1-10 19:02

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表