Python爬虫学习记录——2.初识Python爬虫

古城微笑少年丶 2023-05-31 10:14 174阅读 0赞

文章目录

    • 环境搭建
    • 创建一个简单实例
    • 爬虫的步骤

环境搭建

  • Python版本:Python 3.7
  • 操作系统:Windows 7
  • IDE:PyCharm
  • 浏览器:Google Chrome

创建一个简单实例

爬虫的第一步,是需要获取数据。在Python中,可以通过urllib包或者Requests包来进行数据的获取。

  • urllib包

    • 推荐阅读urllib官方文档:https://docs.python.org/3/library/urllib.html
    • 示例:使用urllib包获取百度首页信息

      import urllib.request

      导入urllib.request

      f = urllib.request.urlopen(‘http://www.baidu.com/‘)

      打开网址,返回一个类文件对象

      f.read(500)

      打印前500字符

      f.read(500).decode(‘utf-8’)

      打印前500字符并修改编码为utf-8

  • Requests包

    • 由于requests是python的第三方库,因此首先需要安装requests库。requests官方文档:http://docs.python-requests.org/zh\_CN/latest/user/quickstart.html
    • 示例:使用Requests库获取百度首页信息

      import requests #导入requests库

      r = requests.get(‘https://www.baidu.com/‘)

      使用requests.get方法获取网页信息

      r
      r.text #打印结果

      r.encoding=’utf-8’ #修改编码

      r.text #打印结果

爬虫的步骤

  1. 爬虫第一步:使用requests获得数据:

    1. 导入requests
    2. 使用requests.get获取网页源码

      import requests
      r = requests.get(‘https://book.douban.com/subject/1084336/comments/').text

  2. 爬虫第二步:使用BeautifulSoup4解析数据:

    1. 导入bs4
    2. 解析网页数据
    3. 寻找数据
    4. for循环打印

      from bs4 import BeautifulSoup
      soup = BeautifulSoup(r,’lxml’)
      pattern = soup.find_all(‘span’,’short’)
      for item in pattern:

      1. print(item.string)
  3. 爬虫第三步:使用pandas保存数据:

    1. 导入pandas
    2. 新建list对象
    3. 使用to_csv写入

      import pandas
      comments = []
      for item in pattern:

      1. comments.append(item.string)

      df = pandas.DataFrame(comments)
      df.to_csv(‘comments.csv’)

完整的爬虫示例如下:

  1. import requests
  2. r = requests.get('https://book.douban.com/subject/1084336/comments/').text
  3. from bs4 import BeautifulSoup
  4. soup = BeautifulSoup(r,'lxml')
  5. pattern = soup.find_all('span','short')
  6. for item in pattern:
  7. print(item.string)
  8. import pandas
  9. comments = []
  10. for item in pattern:
  11. comments.append(item.string)
  12. df = pandas.DataFrame(comments)
  13. df.to_csv('comments.csv')

发表评论

表情:
评论列表 (有 0 条评论,174人围观)

还没有评论,来说两句吧...

相关阅读

    相关 Python爬虫

    因为对爬虫机制的好奇,所以就找了找资料,做一下这方面的笔记。 文章目录 一、爬虫简介 二、爬取实例 2.1爬取步骤 2.2代

    相关 Python爬虫

    暑假学的,并写的笔记。现在把他写到博客上,也是复习一波。寒假继续学习。争取写个帮我抢火车票的。 因为学的是python2.7x。。。。 所以用的urllib 原来可以

    相关 爬虫

    -—恢复内容开始—- 通过路飞学城的课程使用一个登录github的例子来了解一下爬虫是如何工作的 import requests from bs4 import Be...