【零基础学爬虫】爬虫库简介

客官°小女子只卖身不卖艺 2022-04-24 07:16 347阅读 0赞

# 爬虫库 #

*  urllib
 *  re
 *  requests ：pip install requests
 *  selenium:自动化测试，js渲染的网页，这是使用requests无法请求，需要selenium；需要下载chromdriver，移动到配置好的环境变量路径中：这之后使用selenium可以打开chrome浏览器。这个需要浏览器界面

> form selenium import webdriver  
> driver = webdriver.Chrome()\#会自动打开浏览器  
> dirver.ger(‘[http://www.baidu.com][http_www.baidu.com]’)\#此时chrome浏览器会自动访问百度  
> driver.page\_source()\#可以获取到网页的源码

*  phantomjs:不需要界面，无界面浏览器，后台静默运行。下载后需要把EXE文件配置到环境遍变量

> javafrom selenium import wendriver  
> driver = wendriver.PhantomJS()  
> driver,ger(‘[http://www.baidu.com][http_www.baidu.com]’)  
> driver.page\_source();

*  lxml 网页解析。官网安装或者先下载whl文件，再使用pip安装：pip install whl文件名
 *  beautifulsoup，依赖lxml库，主要用于网页解析

> from bs4 import BeautifulSoup  
> soup = BeautifulSoup(’<html>’,‘lxml’)\#解析html

*  pyquery：网页解析，pip install pyquery

> from pyquery import PyQuery as pq  
> doc = pq(’’)  
> doc = pq(‘hello’)  
> result = doc(‘html’).test()  
> result\#结果为hello

# 存储库 #

*  pymysql：操作MySQL

> import pymysql  
> conn = pymysql.connect(host=’’,user=’’,password=’’,端口，db=‘MySQL’)  
> cursor=conn.cursor()  
> cursor.execute(‘sql语句’)  
> cuesor.fetchone()\#获取一条记录

*  pymongo：操作MongoDB，菲关系型数据库

> import pymongo  
> client = pymongo.MngoClient(‘localhost’)  
> db = client(‘newestdb’)  
> db.insert(‘name’:‘cyb’)  
> db\[‘table’\] = find\_one((‘name’:‘cyb’))\#数据的查询

*  redis库

> import redis  
> r = redis.Redis(‘localhost’,‘6379’)  
> r.set(‘name’:‘bob’)  
> r.get(‘name’)

*  flask web库，代理设置：代理获取，代理存储。
 *  django：web服务器框架
 *  jupyter ：python在线调试

--------------------

扫描下方二维码，**及时**获取更多**互联网求职面经**、**java**、**python**、**爬虫**、**大数据**等技术，和**海量资料分享**：公众号后台回复“**csdn**”即可免费领取【csdn】和【百度文库】下载服务；公众号后台回复“**资料**”:即可领取**5T精品学习资料**、**java面试考点**和**java面经总结**，以及**几十个java、大数据项目**，**资料很全，你想找的几乎都有**  
![扫码关注，及时获取更多精彩内容。（博主今日头条大数据工程师）][1240]

[http_www.baidu.com]: http://www.baidu.com
[1240]: /images/20220218/5c6b5143b4674c9fa19c74882b9e4b18.png