Python爬取CAP之家的APP推广信息数据 古城微笑少年丶 2022-12-15 14:17 158阅读 0赞 ## 前言 ## 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 [python免费学习资料以及群交流解答点击即可加入][python] ## 开发工具 ## * python 3.6.5 * pycharm import requests import time import csv 相关模块可pip安装 ## 确定目标网页 ## ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center] 获取数据内容 ![在这里插入图片描述][2020101719021031.png_pic_center] cap之家数据是动态数据加载的~ 开发者工具可以找到相对应的数据接口 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 1] 请求数据是POST ![在这里插入图片描述][20201017190432647.png_pic_center] 数据内容找到了,单页数据可以直接爬取,如果想要爬取多页数据,那就要分析接口数据url的变化 因为数据接口是post请求,所以一般情况都是data参数的变化,所以查看data参数的变化就可以了~ * 第一页接口数据data参数 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 2] ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 3] 两个接口都是一样的数据,但是data参数不一样,第二个就是感觉data参数就是对应的页数号,所以可以多看几页的data参数的变化 * 第二页接口数据data参数 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 4] * 第三页接口数据data参数 ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 5] 这一下就很清楚的看到data参数的变化了~Pagelndex是等差数列 刚好对应的页数 所以再翻页爬取的时候只要改变Pagelndex参数就可以了 ## 完整代码 ## 代码还是很简单的 import requests import time import csv f = open('APP推广数据.csv', mode='a', encoding='utf-8', newline='') csv_writer = csv.DictWriter(f, fieldnames=['名称', '发布时间', '单价/元', '结算方式', '数据查看', '电话', '微信', 'QQ', '产品要求']) csv_writer.writeheader() for page in range(1, 81): print('=========================================正在爬取第{}页的推广数据============================================================'.format(page)) url = 'https://www.cpajia.com/index.php?m=index&a=search' data = { 'PageIndex': '{}'.format(page) } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.post(url=url, data=data, headers=headers) html_data = response.json() lis = html_data[1:-1] # pprint.pprint(lis) dit = { } for i in lis: dit['名称'] = i['title'] data_time = int(i['updatetime']) timeArray = time.localtime(data_time) otherStyleTime = time.strftime("%Y--%m--%d %H:%M:%S", timeArray) dit['发布时间'] = otherStyleTime dit['单价/元'] = i['price'] dit['结算方式'] = i['balance'] dit['数据查看'] = i['dataview'] dit['电话'] = i['phone'] dit['微信'] = i['wxh'] dit['QQ'] = i['qq'] dit['产品要求'] = i['content'] csv_writer.writerow(dit) print(dit) ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 6] ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 7] ![在这里插入图片描述][20201017191222944.png_pic_center] 一共是80页数据,1662条推广数据 [python]: https://jq.qq.com/?_wv=1027&k=kQrKxXXR [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center]: /images/20221123/6c94c5123267473999546d261ff9089c.png [2020101719021031.png_pic_center]: /images/20221123/21a54e8f7c6a49adabee57dc610798e9.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 1]: /images/20221123/23eb7a95628f4a15b6fcb9f382d0c51b.png [20201017190432647.png_pic_center]: /images/20221123/955d871e5fb1476dab072e4ad0f058f2.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 2]: /images/20221123/a8aa565a088943dd98ee6b835faf1621.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 3]: /images/20221123/4d2a137cd96742a88ad0332645ec60b4.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 4]: /images/20221123/b6775a579a59478a9f44d6749f2f1a60.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 5]: /images/20221123/05486eccfa144402a7af38329d427002.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 6]: /images/20221123/8d151765a90a4932975ebbc93429ae3b.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA_size_16_color_FFFFFF_t_70_pic_center 7]: /images/20221123/a379e901f9814a219198c7d225acf6ee.png [20201017191222944.png_pic_center]: /images/20221123/756960eef8af4495b3e8687054c68c68.png
相关 爬取汽车之家新闻 爬取汽车之家新闻 伪造浏览器向某个地址发送Http请求,获取返回的字符串 response = requests.get(url = '地址' 系统管理员/ 2023年10月09日 11:05/ 0 赞/ 53 阅读
相关 Python爬取CAP之家的APP推广信息数据 前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接 古城微笑少年丶/ 2022年12月15日 14:17/ 0 赞/ 159 阅读
相关 python 获取 淘宝 app 数据_python-爬取app上数据 计算机基础较弱,最近天天看app,眼睛疼,就顺便学了下抓些数据。 一,下载Fiddler,直接从官网上就可以下载,我当时下载的时候因网速不行下载了好多遍才下载好。 我用MA £神魔★判官ぃ/ 2022年10月31日 13:51/ 0 赞/ 320 阅读
相关 Python爬虫之链家二手房数据爬取 Python 依赖模块: requests parsel csv 功能要求: ![watermark_type_ZHJvaWRzYW5zZmFs 本是古典 何须时尚/ 2022年09月11日 07:23/ 0 赞/ 349 阅读
相关 python爬取链家新房数据 转载:https://blog.csdn.net/clyjjczwdd/article/details/79466032 from bs4 impor 清疚/ 2022年05月09日 02:38/ 0 赞/ 219 阅读
相关 爬取手机APP数据 爬取APP数据流程: 1、使用抓包工具; 2、手机使用代理; 3、获取并分析接口; 4、反编译apk获取key; 5、突破反爬限制。 工具: 1、夜神 朴灿烈づ我的快乐病毒、/ 2022年02月22日 10:25/ 0 赞/ 602 阅读
相关 Python自动化爬取App数据 ![Python自动化爬取App数据][Python_App] 基本环境配置 版本:Python3 系统:Windows 需要安装: 1.JDK - Dow 淩亂°似流年/ 2022年02月15日 00:23/ 0 赞/ 364 阅读
相关 python爬取app数据 python环境部署 python环境部署这里不做叙述 MYSQL操作 安装MySQL驱动 由于MySQL服务器以独立的进程运行,并通过网络对外服务,所以,需 桃扇骨/ 2021年12月21日 13:15/ 0 赞/ 373 阅读
相关 python3 scrapy 爬虫实战之爬取站长之家 爬取目标 > 站长之家:[http://top.chinaz.com/all/][http_top.chinaz.com_all] 爬取工具 > win10 py 我不是女神ヾ/ 2021年09月15日 10:50/ 0 赞/ 573 阅读
还没有评论,来说两句吧...