爬虫日记(83)：Scrapy的CrawlerProcess类(四）

小鱼儿 2022-10-16 08:50 338阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，338人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫日记(91)：Scrapy的ScrapyAgent类

从前面的HTTP11DownloadHandler类分析可知，它是调用ScrapyAgent类来处理具体的HTTP或HTTPS的协议来下载网页数据。如下调用过程： ![wat

喜欢ヅ旅行/ 2023年01月23日 12:47/ 0 赞/ 52 阅读

相关爬虫日记(89)：Scrapy的DownloadHandlers类

前面分析了下载器的整个源码，理解了下载器的工作过程，在那里经常会遇到一个类，就是DownloadHandlers类，这个类主要用来对不同的下载协议进行管理的，比如文件协议和ht

旧城等待，/ 2022年10月19日 12:59/ 0 赞/ 223 阅读

相关爬虫日记(85)：Scrapy的ExecutionEngine类（四）

接着下来我们来分析spider\_is\_idle函数，这个函数用来判断蜘蛛类是否处于空闲状态： ![20210604183135328.png][] 第189行判断下载回

￡神魔★判官ぃ/ 2022年10月18日 01:45/ 0 赞/ 213 阅读

相关爬虫日记(84)：Scrapy的Crawler类（二）

spidercls是一个蜘蛛类，比如这里是<class 'ItemDemo.spiders.quotes.QuotesSpider'>内容，self.settings是前面加载

我就是我/ 2022年10月16日 09:58/ 0 赞/ 247 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(四）

当前面准备工作都已经做之后，我们就需要让爬虫转换控制权了，就是从命令里转移到引擎运行了，它的触发代码就是在下面： class Command(BaseRunSpiderCom

小鱼儿/ 2022年10月16日 08:50/ 0 赞/ 339 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(三）

前面完成了CrawlerRunner类构造函数的分析，接着从哪里继续开始呢？我想应该按顺序执行的主线来进行，可以从之前运行的命令里看到执行下面的函数： class Comma

Bertha 。/ 2022年10月16日 07:14/ 0 赞/ 194 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类(二）

因此继续来分析这两个函数的代码，才能理解蜘蛛类怎么样加载进来，怎么样设置twisted底层的工作框架。我们来查看\_get\_spider\_loader函数的代码，它的定义如

清疚/ 2022年10月16日 04:49/ 0 赞/ 326 阅读

相关爬虫日记(83)：Scrapy的CrawlerProcess类（一）

前面学习了Twisted的基础知识了，接着回过头来再看整个Scrapy程序，在执行 Scrapy 命令时，主要经过以下几步： 1）调用 cmdline.py 的 execut

ゝ一纸荒年。/ 2022年10月16日 01:49/ 0 赞/ 261 阅读

相关爬虫日记(88)：Scrapy的Downloader类（二）

接着下来，我们来分析Downloader类的初始化过程，以及相关的数据结构，这样才能明白它具体做了些什么事情。 ![watermark_type_ZmFuZ3poZW5naG

太过爱你忘了你带给我的痛/ 2022年10月13日 15:51/ 0 赞/ 203 阅读

相关爬虫日记(88)：Scrapy的Downloader类（一）

从前面的分析我们知道，当下载的连接URL去重之后，就需要把URL放到下载器里进行下载，这样才会得到网页相关的数据，比如HTML、图片、脚本等等。然后我们根据网页再来抽取相关的数

缺乏、安全感/ 2022年10月10日 15:57/ 0 赞/ 253 阅读