育儿论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 23|回复: 0

防止网站被爬虫抓取的方法有哪些

[复制链接]

24万

主题

24万

帖子

0

积分

新手上路

Rank: 1

积分
0
注册时间
2022-4-28
发表于 2022-12-25 18:40 | 显示全部楼层 |阅读模式
防止网站被爬虫抓取的方法有哪些
1 p3 m+ n% M2 E9 l0 k% h0 f% D
/ J/ S3 _$ v  d防止网站被爬虫抓取的方法有哪些$ h. t. P. c+ O9 p8 o0 O& G0 A
3 _. N0 k  y7 @; u9 x
对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢?5 \, R' g) M( T3 X9 I0 F6 o3 K) x
" q" S( U8 Q7 H
一、分辨爬虫的善恶
& F* d2 T7 s" M+ Z5 `2 F- m1 y8 }' ?* g; {" [. @9 t( z
网络爬虫分为两种,一种是善意爬虫,例如百度、Google等搜索引擎的爬虫,另一种是恶意爬虫,它可能会利用网站漏洞,非法窃取网站数据,或者爬取网站内容,占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的,必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时,我们也希望能采取一些措施。4 H/ T2 e; ?8 R2 j' j/ M! n4 ^

3 y1 o. H. g+ m二、如何防止网站被爬虫?
) t6 q* a, o1 s' G. I3 a# N; }$ c: M0 [( U8 B3 v+ j+ M/ ?3 Z
针对善意爬虫,几乎所有的搜索引擎爬虫,都会遵守robots协议,只要我们在网站的根目录下存放一个ASCII编码的文本文件,告诉搜索引擎哪些页面不能爬取,搜索引擎的蜘蛛便会遵照协议,不爬取指定页面的内容。
# ^7 |# ?1 R3 Z6 t/ C  O0 J2 e+ t7 ~/ ^8 p  W3 a3 Y
但是robots并不是一个规范,而是一种君子协议,它只对善意爬虫有效,并不能防止恶意爬虫。
4 a0 W3 J& y/ H; f
5 V- a# h' R% l针对恶意爬虫,我们可以采取以下措施来识别和阻断它。
( U- S( |$ }5 W7 i0 W% I% C
! e* k" O2 B) X) M& m; E$ y! C: A1.限制User-Agent字段
7 W# a& ~& Q2 B3 X6 N8 _. |7 X' ^; s9 O! R
User-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息,如果请求来自非浏览器,就能识别其为爬虫,阻止爬虫抓取网站信息。
( {; \( v/ f* Z
. Y  L4 p; m$ r8 E& i( ]User-Agent字段虽然有效,但对于精心构造的爬虫来说,效果并不好。攻击者可以通过在恶意爬虫请求的User-Agent字段中带上baidu字符,伪装成百度爬虫绕过这一规则,无法被拦截。' [" |/ s4 d* z7 o, b. M

" }6 ?8 X' `7 Y' c2.限制IP
: S& _! @1 f, L% e4 _3 {# t6 U) ?! `5 y* r0 c. R8 @
限制IP是最常见的手段之一,为了效率,恶意爬虫的请求频率往往比正常流量高,找出这些IP并限制其访问,可以有效降低恶意爬虫造成的危害。0 n. N, L0 H. f
+ \* O/ M7 D% M" }6 o: a
不过限制IP也有自己的缺点,容易误伤正常用户,攻击者可以通过搭建IP池的方法,来解决这个问题。
) D7 u8 u0 [/ O1 g) ?9 Z6 B( a( t# j/ u$ X/ ^. x
3. 添加验证码5 u+ U6 c9 p% U# }' n8 K

% |3 c6 N) `/ W, B2 {在登录页等页面,添加验证码,以识别是正常流量还是恶意爬虫,也是一种基本的操作。不过如今爬虫技术,早已能解决验证码的问题,例如二值化、中值滤波去噪等等。( R8 \) d& m( o; I" G
+ n  F" s' `7 }- ]

# F, U" V! E1 t$ I9 q4 ?3 {6 i* V, g8 S, p; f
原文连接:http://www.szw86.com/thread-9831-1-1.html
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|育儿网

GMT-5, 2024-9-23 00:25

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表