Python爬虫-网络数据采集

矫情吗；* 2023-08-17 17:05 227阅读 0赞

爬虫分析

1.拿到目标网站

2.分析url，判断网站的动静态

3.静态网站和静态网站

如果是静态网站可以在分析好url之后进行数据的匹配获取，可以用正则re，xpath，bs4，pyquery等；另外某些网站会对html文件进行压缩，这时会遇到一个解压缩的问题，不然获取到的静态页面数据是乱码。这里我用的是谷歌浏览器，按F12检查，找到network，在主页的html页面接口处查看请求头参数是否有Accept-Encoding，一般的压缩格式都有gzip，那么在发起请求的时候需要把这些参数加到headers里面，这时请求成功之后拿到的数据就是正常的了。
在这里插入图片描述

剩下的则是动态网站，一般都是ajax请求的数据，也就是返回的json数据，在拿到目标url之后发起请求，进行一系列的编码解码操作，再用正则re进行匹配需要的字段和内容。

4.数据持久化

数据持久化也就是将获取到的数据存储到本地，可以是存储为txt，csv，html，xlse等文件格式。另外就是数据库存储，可以选择mysql，redis，mongodb，这三个数据库也是我们必须会用的。

发表评论取消回复

表情：

评论列表（有 0 条评论，227人围观）

还没有评论，来说两句吧...

相关阅读

相关【youtubo】爬虫数据采集案例

从此烟雨落金城，一人撑伞两人行![在这里插入图片描述][729ef02462ff44bb9a23c1cee6f69a7b.png] 案例展示 -*- ...

朴灿烈づ我的快乐病毒、/ 2024年04月17日 11:27/ 0 赞/ 236 阅读

相关 Python网络爬虫工具：打造高效、稳定的数据采集利器

Python网络爬虫工具：打造高效、稳定的数据采集利器网络爬虫是现代互联网时代极为重要的技术手段之一，它可以自动化地访问并解析互联网中的信息资源。Python作为一种高效、

「爱情、让人受尽委屈。」/ 2024年03月24日 10:58/ 0 赞/ 179 阅读

相关 Python批量采集wordpress网站数据爬虫脚本

分享一段非常简单的Python批量采集wordpress网站数据的爬虫脚本，实现采集wordpress程序的网站的整站数据的爬虫程序。从首页开始，抓取href标签，到子页面后还

ゞ浴缸里的玫瑰/ 2024年03月16日 10:17/ 0 赞/ 239 阅读

相关 Python实现简易采集爬虫

对于爬取网页上的数据，采集爬虫是一个非常常见的方法。在Python中，我们可以通过一些库（如Requests、BeautifulSoup、Scrapy等）轻松实现一个简易的采集

绝地灬酷狼/ 2024年02月28日 05:21/ 0 赞/ 179 阅读

相关 Python爬虫-网络数据采集

爬虫分析 1.拿到目标网站 2.分析url，判断网站的动静态 3.静态网站和静态网站如果是静态网站可以在分析好url之后进行数据的匹配获取，可以用正则

矫情吗；*/ 2023年08月17日 17:05/ 0 赞/ 228 阅读

相关 Day7.数据采集-爬虫

数据采集我们进行数据分析以及挖掘时，前提条件就是需要有数据；如果在公司里作业，我们可以从数据库中导入数据，但同时我们也可以对采集数据来进行分析。采集数据最常用就是我们听

爱被打了一巴掌/ 2023年02月14日 13:13/ 0 赞/ 113 阅读

相关【Python爬虫】糗事百科段子数据采集

知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpath数据解析方法 5.分页功能爬虫基本步骤: 1.获取网页地

青旅半醒/ 2022年08月28日 04:57/ 0 赞/ 375 阅读

相关 Python爬虫采集抓取：Python3.x+Fiddler 采集抓取 APP 数据

随着移动互联网的市场份额逐步扩大，手机 APP 已经占据我们的生活，以往的数据分析都借助于爬虫采集爬取网页数据进行分析，但是新兴的产品有的只有 APP，并没有网页端这对

╰+攻爆jí腚メ/ 2022年01月29日 08:13/ 0 赞/ 698 阅读

相关 python数据采集1-初见爬虫

初见网络爬虫网络连接注解当我们在访问百度([www.baidu.com/][www.baidu.com])，在你敲入网址并按下回车之后，将会发生以下神奇的事

￡神魔★判官ぃ/ 2022年01月19日 22:29/ 0 赞/ 455 阅读

相关网络爬虫的采集，处理，存储

爬虫网址：[http://www.bilibili.com/video/movie\_west\_1.html][http_www.bilibili.com_video_mov

墨蓝/ 2021年09月13日 22:40/ 0 赞/ 470 阅读