8.爬虫数据提取——bs4的解析引擎介绍

谁借莪1个温暖的怀抱¢ 2023-06-10 14:26 115阅读 0赞

爬虫数据提取——bs4的解析引擎介绍

在使用requests库获取到html字符串之后,接下来我们便可以使用bs4库对其进行解析,比如:

  1. from bs4 import BeautifulSoup
  2. #content为待解析的html字符串
  3. #lxml为bs4的解析器[解析器有不同的选择]
  4. soup = BeautifulSoup(content,"lxml")

在这里我们需要自行选择不同的解析器,我们本次来盘点一下bs4的解析器。


































解析器 使用方法 优势 劣势
Python标准库 soup = BeautifulSoup(html,”html.parser”)

    1.Python内置标准库

    2.执行速度适中

Python2.x或者python3.2x前的版本中文文档容错能力差
lxml  HTML解析器 soup = BeautifulSoup(html,”lxml”)

    1.速度快

    2.文档容错能力强

需要安装C语言库
lxml  XML解析器 soup = BeautifulSoup(html,”xml”)

    1.速度快

    2.唯一支持XML的解析器

需要安装C语言库
html5lib soup = BeautifulSoup(html,”html5lib”)

1.最好的容错性

2.以浏览器的方式解析文档

3.生成HTML5格式的文档

4.不依赖外部扩展库

        1.速度慢

1.一般来说,我们使用lxml解析器,速度快,并且还有一些容错能力。【lxml解析器为首选

2.如果碰到一些网站,使用lxml无法解析的时候,就可以使用html5lib作为解析器进行解析,不过html5lib需要自己安装。

3.html5lib安装方式:(1)在线安装:pip install html5lib

  1. (2)离线安装:pip install +whl文件

扫描二维码即可参与该课程,解锁更多爬虫知识:

20210223213014197.png

发表评论

表情:
评论列表 (有 0 条评论,115人围观)

还没有评论,来说两句吧...

相关阅读

    相关 页面数据解析bs4

    说实话,之前做爬虫,很不习惯用这个解析工具来解析页面数据,但是现在感觉,这个工具还是很强大的,所以在这里总结一下,方便自己查看,也可以和大家一起共享。 首先注明来源:[资料来