Scrapy框架的工作原理和工作流程

深碍√TFBOYSˉ_ 2023-10-07 16:18 185阅读 0赞

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy使用了Twisted异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy爬虫框架
Scrapy框架的工作流程：

1.首先Spiders(爬虫)将需要发送请求的url(requests)经ScrapyEngine(引擎)交给Scheduler(调度器)。

2.Scheduler(排序，入队)处理后，经ScrapyEngine，DownloaderMiddlewares(可选，主要有User_Agent， Proxy代理)交给Downloader。

3.Downloader向互联网发送请求，并接收下载响应(response)。将响应(response)经ScrapyEngine，SpiderMiddlewares(可选)交给Spiders。

4.Spiders处理response，提取数据并将数据经ScrapyEngine交给ItemPipeline 保存(可以是本地，可以是数据库)。提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

发表评论取消回复

表情：

评论列表（有 0 条评论，185人围观）

还没有评论，来说两句吧...

相关阅读

相关 JVM工作原理和工作流程浅谈

本文主要介绍了关于JVM工作原理简述,主要弄清楚jvm运行的来龙去脉，感兴趣的可以一起来了解一下 JAVA之所以跨平台，是因为有JVM这么一个编译和运行机器，它令对于系统的操

川长思鸟来/ 2024年03月22日 23:31/ 0 赞/ 237 阅读

相关 Scrapy框架的工作原理和工作流程

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy使用了Twisted异步网络框架来处理网络通

深碍√TFBOYSˉ_/ 2023年10月07日 16:18/ 0 赞/ 186 阅读

相关 JVM工作原理和工作流程简述

JAVA之所以跨平台，是因为有JVM这么一个编译和运行机器，它令对于系统的操作对于用户而言是黑盒的，使得开发人员更快速和更注重软件功能的实现。然而，也因为jvm是黑盒，所以内部

叁歲伎倆/ 2023年02月28日 00:59/ 0 赞/ 112 阅读

相关 Kafka--原理--工作流程

原文网址：[Kafka--原理--工作流程\_IT利刃出鞘的博客-CSDN博客][Kafka--_--_IT_-CSDN] 简介本文介绍Kafka的工作流程（工作原理

蔚落/ 2022年11月05日 03:06/ 0 赞/ 527 阅读

相关 Hystrix工作流程原理

一、Hystrix的介绍 Hystrix是netflix开源的一个容灾框架，解决当外部依赖故障时拖垮业务系统、甚至引起雪崩的问题。 Hystrix是豪猪的意思。豪猪是一

朴灿烈づ我的快乐病毒、/ 2022年11月01日 04:25/ 0 赞/ 427 阅读

相关 Android View 的工作流程和原理

[2019独角兽企业重金招聘Python工程师标准>>> ][2019_Python_] ![hot3.png][] 前言在日常开发中，我们每天都在和各种 View

忘是亡心i/ 2022年10月02日 00:46/ 0 赞/ 263 阅读

相关 SSH三大框架的工作原理及流程

[1.Hibernate工作原理及为什么要用?][1.Hibernate] 原理： 1.通过Configuration().configure();读取并解析hibe

喜欢ヅ旅行/ 2022年08月21日 12:37/ 0 赞/ 354 阅读

相关 JVM 工作原理和流程

转载自 [https://blog.csdn.net/qq\_33384065/article/details/80282023][https_blog.csdn.net_qq

￡神魔★判官ぃ/ 2022年05月14日 04:41/ 0 赞/ 409 阅读

相关 Scrapy工作原理

目录 1. Scrapy旧版架构图（绿线是数据流向） 2. Scrapy新版架构图 1. 组件介绍 2. 数据流（Data

淩亂°似流年/ 2022年01月08日 00:51/ 0 赞/ 210 阅读

相关 MyBatis 框架工作流程

MyBatis 框架工作流程 1.MyBatis项目列表官网列出的项目列表： <table> <thead> <tr> <th>项目</th>

小鱼儿/ 2021年09月29日 22:28/ 0 赞/ 610 阅读