第14课:实战之用 Python 写一个简易爬虫

叁歲伎倆 2022-11-20 09:57 292阅读 0赞

爬虫简介

百度百科对网络爬虫的解释:

网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗解释:

互联网存在大量网页,这些网页作为信息的载体包含大量的数据,通过一定技术,我们可以设计一种程序来自动访问网页,并提取网页中的数据,这便是狭义的网络爬虫。

网络爬虫分类:

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 。

设计一个简易的爬虫爬取最热 Chat 基本信息

设计目标

首先来看一下,我们要爬取的网页长什么样子。

enter image description here

从页面中可以看出,每场 Chat 都包含四种信息:Chat 简介、订阅人数、作者及作者简介。本节将设计一个简易的爬虫程序&#

发表评论

表情:
评论列表 (有 0 条评论,292人围观)

还没有评论,来说两句吧...

相关阅读

    相关 python一个爬虫

    可以使用 Python 的第三方库 `requests` 和 `BeautifulSoup` 来编写一个爬虫。 首先,需要安装这两个库,可以使用 `pip` 命令来安装: