python爬虫有哪几种
python爬虫有哪几种?玛森Python培训老师介绍,爬虫是Python 的一个常见应用场景,很多朋友学习Python,就是为了从事爬虫工程师,我们在学习Python爬虫的时候,会学习爬虫有哪些分类,下面进行了详细的介绍。
爬虫的分类
根据被爬网闸的数量不同,可以分为:
通用爬虫,如搜索引擎
聚焦爬虫,如12306抢票,或者专门抓取某一网站的某一类数据
根据是否以获取数据为目的,可以分为:
功能性爬虫,给你喜欢的明星,投票点赞
数据增量式爬虫,比如招聘信息
根据URL地址和对应页面内容是否改变,数据增量爬虫可以分为:
基于URL地址变化,内容变化的增量式爬虫
URL地址不变,内容变化的数据增量式爬虫
以上是关于python爬虫有哪几种的详细介绍了,一般来讲爬虫是通过User-Agent来控制访问,在发送请求时,会发送一个头文:headers,这就是浏览器向服务器表明自己是谁用的,因此对于爬虫来讲,需要注意的字段就是User-Agent.很多网站有User-Agent的白名单,如果你的User-Agent在白名单中,就可以爬取,如果是黑名单,那么就会拒绝。
能通过设置User-Agent来爬取内容的相对来说容易,也有的会对IP进行限制,同一IP访问过多会被拒绝,还有一些网站会采用一些限制方法,比如图片验证码,短信验证码,滑动验证码,图案验证码等等,这些对爬虫技术要求较高,需要学习python爬虫的朋友可以私信交流。
本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢