【python初级】使用bs4. BeautifulSoup解析网页介绍

灰太狼 2022-11-21 11:46 361阅读 0赞

【python初级】使用bs4. BeautifulSoup解析网页

  • 1.背景
  • 2.安装
  • 3.简单示例

1.背景

爬虫模拟浏览器获取网页的数据。
网页有唯一的URL地址,页面信息由HTML来描述,并使用HTTP/HTTPS协议来传输HTML网页数据;
关于:HTML(HyperText Markup Language)超文本标记语言是一种用于创建网页的标准标记语言。

2.安装

pip install bs4

  1. C:\Users\G7>python -V
  2. Python 3.6.8
  3. C:\Users\G7>pip install bs4
  4. Collecting bs4
  5. Downloading bs4-0.0.1.tar.gz (1.1 kB)
  6. Collecting beautifulsoup4
  7. Downloading beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
  8. |████████████████████████████████| 115 kB 285 kB/s
  9. Collecting soupsieve>1.2; python_version >= "3.0"
  10. Downloading soupsieve-2.0.1-py3-none-any.whl (32 kB)
  11. Building wheels for collected packages: bs4
  12. Building wheel for bs4 (setup.py) ... done
  13. Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1277 sha256=5fd8e30825a0170b1f16f78e84fba037685af463843685dae9c0593bc7a8c926
  14. Stored in directory: c:\users\g7\appdata\local\pip\cache\wheels\19\f5\6d\a97dd4f22376d4472d5f4c76c7646876052ff3166b3cf71050
  15. Successfully built bs4
  16. Installing collected packages: soupsieve, beautifulsoup4, bs4
  17. Successfully installed beautifulsoup4-4.9.3 bs4-0.0.1 soupsieve-2.0.1

3.简单示例

  1. import requests
  2. import bs4
  3. if __name__=="__main__":
  4. url="http://www.cwl.gov.cn/"
  5. #构造一个向服务器请求资源的url对象
  6. req=requests.get(url=url)
  7. #设置请求网页的编码格式
  8. req.encoding="utf-8"
  9. #获得网页的源代码
  10. html=req.text
  11. #html parser解析器
  12. #BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库
  13. bf=bs4.BeautifulSoup(html, "lxml")
  14. #遍历文档进行搜索
  15. img_url=bf.find_all(class_="n_item")[0]
  16. print(img_url)
  17. #<div class="n_item"><a href="/zzjg/" target="_blank">组织机构</a></div>

发表评论

表情:
评论列表 (有 0 条评论,361人围观)

还没有评论,来说两句吧...

相关阅读