330beautifulsoup

小灰灰 2022-10-01 09:49 105阅读 0赞

实战例子1:获取博客发布日期(beautifulsoup的解析功能) import requests from bs4 import BeautifulSoup #调用模块 headers={‘user-agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36’}

for i in range(1,4): link=’blog.csdn.net/weixin_4218… #网页的翻页 r=requests.get(link,headers=headers) #访问获取网页

  1. soup=BeautifulSoup(r.text,'lxml') #用lxml分析网页信息
  2. dates=soup.find_all('span',class_='date') #标签span,的,date类,得到列表
  3. for x in dates:
  4. date=x.text.strip() #转换为字符串副本
  5. print(date)
  6. 复制代码

BeautifulSoup的其它功能: 遍历文档树: BeautifulSoup的HTML代码美化功能:

soup=BeautifulSoup(r.text,’lxml)

  1. print(soup.prettify())
  2. 复制代码

遍历文档树

遍历文档树并获取span标签:

soup.header.span

  1. div标签的所有子节点,返回列表:
  2. soup.header.div.contents
  3. children方法获取所有子标签:
  4. soup.header.div.children
  5. 复制代码

所有子子孙孙节点:

soup.header.div,descontents 1

  1. 获取父节点:
  2. soup.header.div.a.parent
  3. 复制代码

1

搜索文档树:

  1. 搜索文档树
  2. 复制代码

获取所有h开头的标签,结合正则表达式,匹配字符串开头的^:

list=soup.find_all(re.compile(^h))

  1. for tag_name in list:
  2. print(tag_name)
  3. 复制代码

1 2 3

  1. ## select
  2. 复制代码

通过标签查找:

  1. soup.select(div a)
  2. 复制代码

soup.select(‘div>a’)

转载于:https://juejin.im/post/5c9f22a7f265da30bd3e4285

发表评论

表情:
评论列表 (有 0 条评论,105人围观)

还没有评论,来说两句吧...

相关阅读

    相关 beautifulsoup函数

    1、beautifulsoup beautifulsoup是一个对网页进行解析转换的包,可以将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 例

    相关 BeautifulSoup实战

    最近我的博客主要都在自己的网站上写,所以在CSDN上很少更新,希望各位读者光临我的站点[http://a2bgeek.me][http_a2bgeek.me] 最近有个