发表评论取消回复
相关阅读
相关 爬虫日记(75):Scrapy的Settings源码分析(二)
由于前面学习的例子可知,scrapy程序会加载内部缺省的参数,它是定义在scrapy\\settings目录下面,它的名称叫做default\_settings.py,里面的参
相关 爬虫日记(74):Scrapy项目配置参数源码分析
前面已经知道scrapy程序运行之后,会调用execute()函数来执行,这是程序入口点,而在这个入口点的背后,第一步做的事情就是获得程序所有的配置参数,因为scrapy程序设
相关 爬虫日记(73):Scrapy程序运行入口点分析
前面分析了怎么样产生scrapy.exe程序,然后通过它就会调用下一个模块,就是cmdline.py文件,它是位于目录scrapy里面,如下图: ![watermark_ty
相关 爬虫日记(72):Scrapy安装程序入口点分析
从这里开始,我们开始进入一个Scrapy框架源码分析的学习过程,为什么要学习它的源码呢?这是因为这个框架的源码设计非常优秀,也是我们学习开发python程序的模范,也是我们学习
相关 爬虫日记(67):Scrapy的XMLFeedSpider使用
在前面我们使用一般的方式来抓取过新闻,那是基于普通的urllib和beautifulsoup组件来实现的,需要写比较多的代码。由于RSS是一种标准格式,这样我们就可以使用标准类
相关 爬虫日记(64):Scrapy的设置参数-统计分析
在开发爬虫的过程中,经常需要分析爬虫的运行状态,以便进一步改进代码,或者提高效率。要想实现这一个目标,必须把爬虫运行的状态数据收集到,这样才能知道是网站里面数据太多了,还是代码
相关 爬虫日记(62):Scrapy的合约测试
在开发爬虫的过程中,经常遇到这种情况,比如几个星期之前编写的爬虫可以完美运行,突然有一天经理看不到数据了,这时就把你叫到他的办公室,开始对你训话了。你会有一肚子的不满,因为这段
相关 爬虫日记(75):Scrapy的Settings源码分析
Scrapy有一个比较大的设计思路,就是任何模块都是可配置的,这样就会让系统更加灵活,也可以简化系统的复杂程度。所以需要设计一个比较复杂的Settings类,保存所有配置的参数
相关 爬虫日记(89):Scrapy的DownloadHandlers类
前面分析了下载器的整个源码,理解了下载器的工作过程,在那里经常会遇到一个类,就是DownloadHandlers类,这个类主要用来对不同的下载协议进行管理的,比如文件协议和ht
相关 爬虫日记(78):Scrapy的命令运行入口点
前面经历了从安装程序转到scrapy程序运行,再从scrapy程序开始读取配置参数,再到命令行里处理参数,这样就把前期的工程准备好了,接着就来到了最后的阶段,运行爬虫了。这个阶
还没有评论,来说两句吧...