python爬虫入门之Scrapy框架是什么
发布于:百学网
2021-01-23
简介:Scrapy,Python开发的一个快速,高层次的web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。本课程将带你入门并实践Scrapy框架!
一、Scrapy框架是什么?
是一个为了爬取网站数据,提取结构性数据而编写的应用框架。
可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
二、Scrapy框架安装方法:
Windows:在终端输入命令:pip install scrapy;
Mac:在终端输入命令:pip3 install scrapy;
三、Scrapy运行流程:
1、引擎从调度器中取出一个链接(URL)用于接下来的抓取;
2、引擎把URL封装成一个请求(Request)传给下载器;
3、下载器把资源下载下来,并封装成应答包(Response);
4、爬虫解析Response;
5、解析出实体(Item),则交给实体管道进行进一步的处理;
6、解析出的是链接(URL),则把URL交给调度器等待抓取;
本站(www.100xue.net)部分图文转自网络,刊登本文仅为传播信息之用,绝不代表赞同其观点或担保其真实性。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系(底部邮箱),我们将及时更正、删除,谢谢
- END -
上一篇:PyCharm常用快捷键大全
下一篇:广州Python培训机构哪里好