异步网页采集利器CasperJs

╰+攻爆jí腚メ 2022-07-08 14:29 151阅读 0赞

在采集网页中，我们会经常遇到采集一些异步加载页面的网页，我们通常用的httpwebrequest类就采集不到了，这个时候我们通常会采用webbrowser来辅助采集，但是.net下自带的webbrowser用起来非常不爽，在获取页面是否加载完毕的时候比较麻烦一些， DocumentCompleted事件遇到Iframe重复触发，而且获取到的源码通常也不是异步加载完之后的源码，往往我们需要加上定时器去不断的检查，才能获取到我们想要的源码。当然我们可以用一些第三方的webkit内核浏览器，但是这些判断页面是不是真正的加载完成也是比较费劲，而且体积都不小。  
今天就介绍一下 CasperJS ， CasperJS 是一个开源的导航脚本处理和测试工具，基于 PhantomJS 和 slimerjs （前端自动化测试工具）编写。CasperJS简化了完整的导航场景的过程定义，提供了用于完成常见任务的实用的高级函数、方法和语法。CasperJS 本身的功能很强大，内置了两种引擎 PhantomJS 和 slimerjs 默认使用 PhantomJS ，具体详细的功能，大家可以参数这些官方网站去了解，或者加入 QQ群 389709524 一块讨论，今天的重点讨论如何快速的采集到异步加载的网页。  
假如我们要采集dudu的这篇文章的评论 [http://www.cnblogs.com/dudu/p/csharp-unicode-utf8.html][http_www.cnblogs.com_dudu_p_csharp-unicode-utf8.html]，这篇文章查看源码是找不到这两条评论的，我们通过httpwebrequest也是获取不到的，这个时候我们通过casperjs就非常容易了。

caperjs代码定义如下：

var fs = require('fs');
      var casper = require('casper').create({
          pageSettings: {
              loadImages: false,
              loadPlugins: false
          },
          logLevel: "debug",//日志等级
          verbose: true,    // 记录日志到控制台
      });
    
     var url = casper.cli.raw.get('url');
    
     //请求页面
     casper.start(url, function () { 
         fs.write("temp.html", this.getHTML(), 'w');
     });
    
     casper.run();

结果如下：  
![这里写图片描述][SouthEast]  
![这里写图片描述][SouthEast 1]

这样几行轻松的代码就获取到了异步加载的html代码了，是不是很简单，速度也是很快！  
当然在实际生产环境中这个还远远不够，我们要考虑各种网站的情景和各种网络状况，比如要考虑网络超时，一个网页一分钟加载不了我们就认为超时了，不然会一直等待，还有我们要过滤一下对于我们采集无关的请求，比较谷歌统计，百度统计，广告等，这个往往会拖慢网页的加载速度，另外页面的css样式，图片我们通常也不需要，都可以忽略，综上所述，我们的代码扩展成这样子。

var fs = require('fs');
    
       var casper = require('casper').create({
           pageSettings: {
               loadImages: true,       
               loadPlugins: false,      
               userAgent: 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER'
           },
           logLevel: "debug",//日志等级
         verbose: true,    // 记录日志到控制台
         timeout: 60000,//60秒超时，退出
     });
    
    
     var url = casper.cli.raw.get('url');
    
     //排除不相关的请求，加快页面加载进度
    casper.on('resource.requested', function(requestData, request) {     
        if (requestData.url.indexOf('google-analytics.com') > 0) {
             request.abort();
          }
         if (requestData.url.indexOf('googlesyndication.com') > 0) {
             request.abort();
         }
          if (requestData.url.indexOf('hm.baidu.com') > 0) {
             request.abort();
          }
        if (requestData.url.indexOf('baidustatic.com') > 0) {
             request.abort();
        }
         if (requestData.url.indexOf('share.baidu.com') > 0) {
             request.abort();
         }
         if (requestData.url.indexOf('cbjs.baidu.com') > 0) {
             request.abort();
        }
         if (requestData.url.indexOf('jiathis.com') > 0) {
             request.abort();
         }
         if (requestData.url.indexOf('.cnzz.com') > 0) {
            request.abort();
        }
        if (requestData.url.indexOf('.51.la') > 0) {
            request.abort();
        }
        if (requestData.url.indexOf('.tanx.com') > 0) {
             request.abort();
         }
         //this.echo("==============>page.resource.requested"+requestData.url);
     });
    
     //超时执行的函数，记录到日志文件
     casper.on('timeout', function () { 
         //this.echo("===>timeout"+url);
        var fileName = this.evaluate(getFileName);
         var nowTime = this.evaluate(CurentTime);
         fs.write("log/timeout_" + fileName + ".txt", nowTime + "====>" + url + "\r\n", 'a');
     });
    
    //请求页面
     casper.start(url, function () { 
         var status = this.status().currentHTTPStatus;
         //this.capture('tt.png');
         fs.write("temp.html", this.getHTML(), 'w');
    });
    
    
     function getFileName() { 
         var now = new Date();
    
         var year = now.getFullYear();       //年
         var month = now.getMonth() + 1;     //月
        var day = now.getDate();            //日
    
       return (year + "" + month + "" + day);
     }
    
     function CurentTime() { 
        var now = new Date();
    
        var year = now.getFullYear();       //年
        var month = now.getMonth() + 1;     //月
        var day = now.getDate();            //日
    
         var hh = now.getHours();            //时
        var mm = now.getMinutes();          //分
    
        var clock = year + "-";
    
         if (month < 10)
             clock += "0";
    
         clock += month + "-";
    
         if (day < 10)
            clock += "0";
    
        clock += day + " ";
    
         if (hh < 10)
            clock += "0";
    
         clock += hh + ":";
         if (mm < 10) clock += '0';
        clock += mm;
         return (clock);
     }
    
     casper.run();

[http_www.cnblogs.com_dudu_p_csharp-unicode-utf8.html]: http://www.cnblogs.com/dudu/p/csharp-unicode-utf8.html
[SouthEast]: /images/20220708/6de2641996bc4145a0d9b0e719a8718d.png
[SouthEast 1]: /images/20220708/2e6d4269edf64bed9784165962fee9e5.png

发表评论取消回复

表情：

评论列表（有 0 条评论，151人围观）

还没有评论，来说两句吧...

相关阅读

相关 Flume采集数据利器

一、什么是Flume Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具。Flume 可以做离线也可以做

小咪咪/ 2023年07月17日 14:01/ 0 赞/ 41 阅读

相关 python爬虫，网页采集器

""" 步骤： 1 指定URL 2 发起请求 3 获取响应数据 4 持久化存储案例1：网页采集器

水深无声/ 2023年07月10日 08:50/ 0 赞/ 33 阅读

相关 Mq异步采集报表数据设计

1、Mq异步采集数据 1）使用mq异步化，脱离主业务，缩短主业务响应时间。 2）借用Mq异步数据存储操作，减轻主业务服务器压力。 3）存储使用es，支持大数据查询，提

谁借莪１个温暖的怀抱￠/ 2023年06月30日 05:23/ 0 赞/ 13 阅读

相关网页采集器-UA伪装

网页采集器-UA伪装 UA伪装请求载体身份标识的伪装: User-Agent: 请求载体身份标识，通过浏览器发起的请求，请求载体为浏览器，则该请求的User-

r囧r小猫/ 2023年06月02日 10:42/ 0 赞/ 15 阅读

相关【Python爬虫】简易网页采集器

需求爬取搜狗指定词条对应的搜索结果页面。分析四大步：指定url —> 发起请求 —> 获取响应数据 —> 持久化存储我搜索的词条为“哈利波特”，其ur

女爷i/ 2022年12月14日 03:37/ 0 赞/ 231 阅读

相关采集利器 - Web Scraper教学及示例

声明本文章是以学习和交流为目的，数据源所有权归属原网站及所有者，严禁利用本文所提流程和数据进行盈利。 > “砸钉子的方式有很多种，有的时候自己最熟悉的锤子反而会砸到自

今天药忘吃喽~/ 2022年11月24日 14:14/ 0 赞/ 214 阅读

相关 plantomjs&casperjs

Casperjs 1.设置编码 `phantom.outputEncoding = ` `"gbk"` `;` `` `2.页面操作` `query

Bertha 。/ 2022年08月09日 00:35/ 0 赞/ 163 阅读

相关异步网页采集利器CasperJs

在采集网页中，我们会经常遇到采集一些异步加载页面的网页，我们通常用的httpwebrequest类就采集不到了，这个时候我们通常会采用webbrowser来辅助采集，但是.ne

╰+攻爆jí腚メ/ 2022年07月08日 14:29/ 0 赞/ 152 阅读

相关 PHP采集利器snoopy讲解

Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单。Snoopy正确运行需要你的服务器的PHP版本在4以上，并且支持PCRE（Perl Compat

叁歲伎倆/ 2022年03月25日 00:34/ 0 赞/ 278 阅读

相关 BeautifulSoup：网页解析利器上手简介

关于爬虫的案例和方法，我们已讲过许多。不过在以往的文章中，大多是关注在如何把网页上的内容抓取下来。今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。

落日映苍穹つ/ 2022年03月09日 16:16/ 0 赞/ 323 阅读