python 解析网页html,提取需要的页面信息

Myth丶恋晨 2022-09-14 13:25 203阅读 0赞

# 爬虫网络请求方式：urllib、 requests， scrapy(框架）、 pyspider(框架) #

# 爬虫数据提取方式：正则表达式, bs4, lxml, xpath, css #

[Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结][Python_BS4_Xpath_CSS]

如果你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如BeautifulSoup） 也不成问题。如果只需抓取少量数据，并且想要避免额外依赖的话，那么正则表达式可能更加适合。

通常情况下，lxml(该模块可以实现xpath和css)是抓取数据的最好选择，这是因为该方法既快速又健壮，而正则表达式和BeautifulSoup只在某些特定场景下有用。

![在这里插入图片描述][watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBA6LSd54yr6K-0cHl0aG9u_size_20_color_FFFFFF_t_70_g_se_x_16]

1、获取网页
    2、解析数据
    ---------------------------------------------------------------------------------
    import requests
    from lxml import etree
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
    r = requests.get('https://www.zhihu.com/question/68584669/answer/265070848',headers=headers)
    s = etree.HTML(r.text)
    # 获取问题内容
    q_content = s.xpath('//*[@class="QuestionHeader-title"]/text()')[0]
    # 获取关注数和浏览量，这两个属性一样
    q_number = s.xpath('//*[@class="NumberBoard-itemValue"]/text()')
    concern_num = q_number[0]
    browing_num = q_number[1]
    # 打印
    print('问题:',q_content,'\n','关注数:',concern_num,'\n','浏览量:',browing_num)
    
    ----------------------------------------------------------------------------
    问题: 行人重识别（re-ID）与跟踪（tracking）有什么区别？ 
     关注数: 535 
     浏览量: 68,555

[Python_BS4_Xpath_CSS]: https://www.cnblogs.com/xtgame/articles/12964551.html
[watermark_type_ZHJvaWRzYW5zZmFsbGJhY2s_shadow_50_text_Q1NETiBA6LSd54yr6K-0cHl0aG9u_size_20_color_FFFFFF_t_70_g_se_x_16]: /images/20220828/639d85b96f2743aba8fa4c8b8de539f1.png