反爬机制

太过爱你忘了你带给我的痛 2023-08-17 16:53 116阅读 0赞

# 总结篇~~~ #

目前了解到的反爬机制：  
1、robots

2、US伪装

3、代理

4、Cookie

5、动态变化的请求参数

6、验证码

7、图片懒加载

8、页面动态加载的数据

9、js混淆

10、js加密

案例：气象站动态js数据爬取

import requests
    import execjs
    import json
    
    """
    - https://www.aqistudy.cn/html/city_detail.html
    - 分析1：通过抓包发现页面中的数据是动态（ajax）加载出来的，可以捕获到ajax数据包对应的请求（post），请求的url可以捕获到，但是请求参数d对应的数据是动态变化且加密的数据。然后响应回来的数据也是经过加密。
    
    - 可以通过火狐浏览器找出查询/搜索按钮绑定的事件（click），通过事件可以定位到一个getData的js函数。查询/搜索按钮点击之后getData函数被调用了。
    - getData函数实现的分析：
        - 在函数实现内部没有直接的ajax请求相关的操作，但是发现了另外两个函数的调用 getWeatherData(); getAQIData();这两个函数实现中会存有ajax请求相关操作。
    
    - 分析：getWeatherData()和getAQIData()内部的实现也没有直观的看到ajax请求的操作，但是这两个函数都调用了getServerData这个函数。并且给该函数传递的参数有：
        - method：'GETDETAIL'  or 'GETCITYWEATHER'。
        - param字典（object）：
            - city
            - type = ‘HOUR’
            - startTime
            - endTime
    
    - 分析getServerData函数的实现：
        - 我们在抓包工具中做全局搜索，搜到了该函数的实现，不过该函数的实现是经过了JS混淆（js源码的加密），我们必须经过反混淆后才可以看到js源码。
        - 在该函数中终于找到了ajax请求对应的代码。
    
        - ajax发起的是post请求，请求参数d是由getParam(method, object);进行的返回。
        - decodeData（data）函数就是将加密后的响应数据进行解密，将原文进行返回。
    
    - 上述分析出的重要的相关函数都是js函数，python是无法直接运行js代码的，但是可以使用相关的模块模拟执行js代码。
        - PyExecJS介绍：PyExecJS 是一个可以使用 Python 来模拟运行 JavaScript 的库。我们需要pip install PyExecJS对其进行环境安装。
        
        - execjs在使用的前提是需要安装好nodeJS环境  !!!!!
    """
    
    node = execjs.get()
    
    # Params
    method = 'GETCITYWEATHER'  # GETDETAIL or GETCITYWEATHER
    city = '西安'
    type = 'HOUR'
    start_time = '2019-08-08 00:00:00'
    end_time = '2019-08-08 23:00:00'
    
    # Compile javascript
    file = 'jsCode.js'
    ctx = node.compile(open(file, encoding='utf-8').read())
    
    # Get params
    js = 'getPostParamCode("{0}", "{1}", "{2}", "{3}", "{4}")'.format(method, city, type, start_time, end_time)
    params = ctx.eval(js)
    
    url = 'https://www.aqistudy.cn/apinew/aqistudyapi.php'
    
    data = {
        'd': params}
    
    page_text = requests.post(url=url, data=data).text
    
    js = 'decodeData("{0}")'.format(page_text)
    decrypted_data = ctx.eval(js)
    print(json.loads(decrypted_data))

![ContractedBlock.gif][] ![ExpandedBlockStart.gif][]

jsCode.js

转载于:https://www.cnblogs.com/biao-wu/articles/11342882.html

[ContractedBlock.gif]: https://images.cnblogs.com/OutliningIndicators/ContractedBlock.gif
[ExpandedBlockStart.gif]: /images/20230809/753cba04e2794604829dc75b822a9868.png