2.爬虫基础——为什么学习爬虫？

系统管理员 2023-06-06 04:56 113阅读 0赞

我们来解答上一次提出的问题：为什么花费这么大力气去html页面提取信息干什么？还不如直接打开原始页面进行复制粘贴呢，这不是一样的吗？

第一点：个人复制粘贴的话，一个网页还好，十个网页也还行吧，但是一百个，一千个甚至更多呢？所以说，人力是不足以完成这个工作的。因此需要爬虫的参与。

第二点：爬虫模拟的是人的状态。比如，我想要进行复制粘贴所有的影评信息，是不是应该按顺序打开每一个的影评页面呢？举一个例子：还是豆瓣影评数据->https://movie.douban.com/review/best/【豆瓣最受欢迎的影评信息】

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MjgzMDY5Nw_size_16_color_FFFFFF_t_70

（1）人的状态：点击第一个，获取到影评，接着复制粘贴；然后是第二个，获取到影评，接着复制粘贴…

（2）爬虫的状态：获取第一个url对应的html源码，按照一定规则获取到影评，接着保存数据；获取第二个url对应的html源码，按照一定规则获取到影评，接着保存数据…

实际上，我们发现：爬虫就是完全模拟了人获取数据的操作的过程，把这一切操作过程给程序化了，人是打开网页看到的是html源码对应的页面，而爬虫是获取html源码，在html上按照一定规则进行数据提取。【强大的模拟能力】

第三点：时间成本大大降低。如果是按照人一个一个页面打开复制粘贴的话，整个耗费的时间将会非常多，而爬虫我们只需要写好程序，它就会从不懈怠地执行整个操作，并且大大降低时间成本呢。换句话说，当一个人复制粘贴了1个页面的时候，爬虫可能已经爬取了10个、50个、100个页面，也就是相当于这么多个人，对于公司来说，请这么多人来干这个还不如写个爬虫程序。当然，如果未来进化后的人类处理数据的速度可以超过爬虫，那爬虫存在的意义也就没有了，所以，本质还是成本的问题。

发表评论取消回复

表情：

评论列表（有 0 条评论，113人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫基础

一. 简介　　网络爬虫（又被称为网页蜘蛛，网络机器人，在[FOAF][]社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取[万维网][Link 1]信

Myth丶恋晨/ 2023年08月17日 15:39/ 0 赞/ 227 阅读

相关 2.爬虫基础——为什么学习爬虫？

我们来解答上一次提出的问题：为什么花费这么大力气去html页面提取信息干什么？还不如直接打开原始页面进行复制粘贴呢，这不是一样的吗？第一点：个人复制粘贴的话，一个网页还好，

系统管理员/ 2023年06月06日 04:56/ 0 赞/ 114 阅读

相关 Python爬虫学习记录——2.初识Python爬虫

文章目录环境搭建创建一个简单实例爬虫的步骤环境搭建 Python版本：Python 3.7 操作系统：

古城微笑少年丶/ 2023年05月31日 10:14/ 0 赞/ 171 阅读

相关 Python爬虫基础2

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些H

港控/mmm°/ 2022年06月01日 08:48/ 0 赞/ 399 阅读

相关 python 爬虫基础学习

[原址][Link 1] 摘要： From：https://piaosanlang.gitbooks.io/spiders/content/ 爬虫入门初级篇 IDE

你的名字/ 2022年04月22日 01:58/ 0 赞/ 503 阅读

相关爬虫学习Task2

一、学习目标： 2.1 学习beautifulsoup 1. 学习beautifulsoup，并使用beautifulsoup提取内容。 2. 使用beauti

我会带着你远行/ 2022年02月01日 08:15/ 0 赞/ 291 阅读

相关 python网络爬虫学习笔记之一爬虫基础入门

爬虫工作的三个基本步骤：爬取网页、解析内容、存储数据准备先安装爬取网页需要用到的第三方库： requests 和 bs4 pip install request

我会带着你远行/ 2022年02月01日 01:17/ 0 赞/ 516 阅读

相关爬虫基础

01-爬虫介绍什么是爬虫？　　爬虫就是编写程序模拟浏览器上网，然后让其去去互联网上抓取数据的过程。补充： ![1358861-20190724205110

你的名字/ 2021年10月20日 00:32/ 0 赞/ 498 阅读

相关基础爬虫

基础爬虫简单爬取网页信息,未进行过滤代码演示 import urllib.request from fake_useragent impo

深碍√TFBOYSˉ_/ 2021年09月17日 12:24/ 0 赞/ 492 阅读

相关爬虫基础

爬虫爬⾍概述什么是爬⾍? 第一个爬虫 http协议请求响应请求头中最常⻅的⼀些重要内容(爬

╰半夏微凉°/ 2021年09月07日 06:19/ 0 赞/ 724 阅读