Python爬虫学习记录——2.初识Python爬虫
文章目录
- 环境搭建
- 创建一个简单实例
- 爬虫的步骤
环境搭建
- Python版本:Python 3.7
- 操作系统:Windows 7
- IDE:PyCharm
- 浏览器:Google Chrome
创建一个简单实例
爬虫的第一步,是需要获取数据。在Python中,可以通过urllib包或者Requests包来进行数据的获取。
urllib包
Requests包
爬虫的步骤
爬虫第一步:使用requests获得数据:
- 导入requests
使用requests.get获取网页源码
import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/').text
爬虫第二步:使用BeautifulSoup4解析数据:
- 导入bs4
- 解析网页数据
- 寻找数据
for循环打印
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,’lxml’)
pattern = soup.find_all(‘span’,’short’)
for item in pattern:print(item.string)
爬虫第三步:使用pandas保存数据:
- 导入pandas
- 新建list对象
使用to_csv写入
import pandas
comments = []
for item in pattern:comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv’)
完整的爬虫示例如下:
import requests
r = requests.get('https://book.douban.com/subject/1084336/comments/').text
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
print(item.string)
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv('comments.csv')
还没有评论,来说两句吧...