您的位置:首页 >资讯列表 > 正文
发布时间:2021-09-17 16:53
Scrapy爬虫框架由哪几部分构成?

  Scratch框架主要由五个组件组成,分别是SchedulerDownloaderSpiderItem  Pipelinescratch引擎。让我们用飞猪ip代理来看看各个组件的功能。

  Scrapy爬虫框架有哪些部分?

  (1)调度程序

  Scheduler说白了,假设是一个URL(抓取网页的URL或链接)的优先级队列,它将决定下一个抓取的URL是什么,同时消除重复的URL(不做无用的工作)。用户可以根据自己的需求定制调度器。

  (2)下载器

  下载器是所有组件中最繁重的,用于高速下载网络上的资源。Scrapy下载器代码不算太复杂,但是很高效。主要原因是Scrapy下载器是建立在高效的异步模型之上扭曲的(其实整个框架都是建立在这个模型之上的)

  (3)蜘蛛

  爬虫是用户最关心的部分。用户自定义自己的爬虫(通过自定义正则表达式等语法)从特定的网页中提取自己需要的信息,也就是所谓的Item。用户还可以从中提取链接,让Scrapy继续抓取下一页

  (4)项目管道

  管道用于处理spider提取的实体。它的主要功能是持久化实体,验证实体的有效性,清除不必要的信息。

  (5) Scratch引擎

  Scrapy引擎是整个框架的核心。用于控制调试器、下载器和爬虫。其实引擎相当于一台电脑的CPU,控制着整个过程。

 


上一篇 有哪些好的HTTP代理IP,可以避免隐私泄露? 下一篇 飞猪http代理ip:日常动态IP会暴露自己吗?
在线咨询
微信客服

微信客服

微信公众号

微信公众号

回到顶部