Python爬虫-网络数据采集

矫情吗;* 2023-08-17 17:05 227阅读 0赞

爬虫分析

1.拿到目标网站

2.分析url,判断网站的动静态

3.静态网站和静态网站

如果是静态网站可以在分析好url之后进行数据的匹配获取,可以用正则re,xpath,bs4,pyquery等;另外某些网站会对html文件进行压缩,这时会遇到一个解压缩的问题,不然获取到的静态页面数据是乱码。这里我用的是谷歌浏览器,按F12检查,找到network,在主页的html页面接口处查看请求头参数是否有Accept-Encoding,一般的压缩格式都有gzip,那么在发起请求的时候需要把这些参数加到headers里面,这时请求成功之后拿到的数据就是正常的了。
在这里插入图片描述

剩下的则是动态网站,一般都是ajax请求的数据,也就是返回的json数据,在拿到目标url之后发起请求,进行一系列的编码解码操作,再用正则re进行匹配需要的字段和内容。

4.数据持久化

数据持久化也就是将获取到的数据存储到本地,可以是存储为txt,csv,html,xlse等文件格式。另外就是数据库存储,可以选择mysql,redis,mongodb,这三个数据库也是我们必须会用的。

发表评论

表情:
评论列表 (有 0 条评论,227人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Day7.数据采集-爬虫

    数据采集 我们进行数据分析以及挖掘时,前提条件就是需要有数据;如果在公司里作业,我们可以从数据库中导入数据,但同时我们也可以对采集数据来进行分析。采集数据最常用就是我们听