Python批量采集wordpress网站数据爬虫脚本

ゞ浴缸里的玫瑰 2024-03-16 10:17 175阅读 0赞

分享一段非常简单的Python批量采集wordpress网站数据的爬虫脚本，实现采集wordpress程序的网站的整站数据的爬虫程序。从首页开始，抓取href标签，到子页面后还是要继续找href标签，采用Python递归方法，直接贴代码吧！

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

import re

import bs4

import urllib.request

url_home = ‘https://www.che0.com/‘ #要采集的网站

url_pattern = url_home + ‘([\s\S]*).html’ #正则表达式匹配文章页面，此处需完善为更好的写法

url_set = set()

url_cache = set()

url_count = 0

url_maxCount = 1000 #最大采集数量

#采集匹配文章内容的href标签

def spiderURL(url, pattern):

html = urllib.request.urlopen(url).read().decode(‘utf8’)

soup = bs4.BeautifulSoup(html, ‘html.parser’)

links = soup.find_all(‘a’, href = re.compile(pattern))

for link in links:

if link[‘href’] not in url_cache:

url_set.add(link[‘href’])

return soup

#采集的过程异常处理还需要完善，对于一些加了防采集的站，还需要处理header的，下次我们再学习

spiderURL(url_home, url_pattern)

while len(url_set) != 0:

try:

url = url_set.pop()

url_cache.add(url)

soup = spiderURL(url, url_pattern)

page = soup.find(‘div’, { ‘class’:‘content’})

title = page.find(‘h1’).get_text()

autor = page.find(‘h4’).get_text()

content = page.find(‘article’).get_text()

print(title, autor, url)

except Exception as e:

print(url, e)

continue

else:

url_count += 1

finally:

if url_count == url_maxCount:

break

print(‘一共采集了： ’ + str(url_count) + ‘ 条数据’)

发表评论取消回复

表情：

评论列表（有 0 条评论，175人围观）

还没有评论，来说两句吧...

相关阅读

相关【youtubo】爬虫数据采集案例

从此烟雨落金城，一人撑伞两人行![在这里插入图片描述][729ef02462ff44bb9a23c1cee6f69a7b.png] 案例展示 -*- ...

朴灿烈づ我的快乐病毒、/ 2024年04月17日 11:27/ 0 赞/ 164 阅读

相关 Python批量采集wordpress网站数据爬虫脚本

分享一段非常简单的Python批量采集wordpress网站数据的爬虫脚本，实现采集wordpress程序的网站的整站数据的爬虫程序。从首页开始，抓取href标签，到子页面后还

ゞ浴缸里的玫瑰/ 2024年03月16日 10:17/ 0 赞/ 176 阅读

相关 Python爬虫：使用脚本批量下载百度图片

Python爬虫：使用脚本批量下载百度图片在本文中，我们将学习如何使用Python编写一个简单的网络爬虫脚本，以批量下载百度图片。我们将使用Python中的`request

梦里梦外;/ 2024年03月04日 04:02/ 0 赞/ 196 阅读

相关 Python爬虫-网络数据采集

爬虫分析 1.拿到目标网站 2.分析url，判断网站的动静态 3.静态网站和静态网站如果是静态网站可以在分析好url之后进行数据的匹配获取，可以用正则

矫情吗；*/ 2023年08月17日 17:05/ 0 赞/ 157 阅读

相关批量数据脚本

> 本教程中所使用的数据库的建表语句都在“MySQL高阶教程索引”这篇文章中，点击链接直达：[索引&建表语句][Link 1] > 摘要：本文主要介绍查询截取分析模块的批量数

迈不过友情╰/ 2023年01月17日 07:48/ 0 赞/ 248 阅读

相关【Python爬虫】回车桌面壁纸网站美女图片采集

知识点 requests parsel re os 环境 python3.8 pycharm2021 目标网址: ht

绝地灬酷狼/ 2022年09月14日 02:27/ 0 赞/ 300 阅读

相关 Python爬虫项目讲解：采集地方官方网站采购商品数据

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看 https://space.bilibili.com/523606542 [Python学习交

阳光穿透心脏的1/2处/ 2022年08月29日 05:55/ 0 赞/ 186 阅读

相关【Python爬虫】糗事百科段子数据采集

知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpath数据解析方法 5.分页功能爬虫基本步骤: 1.获取网页地

青旅半醒/ 2022年08月28日 04:57/ 0 赞/ 322 阅读

相关 Python爬虫采集抓取：Python3.x+Fiddler 采集抓取 APP 数据

随着移动互联网的市场份额逐步扩大，手机 APP 已经占据我们的生活，以往的数据分析都借助于爬虫采集爬取网页数据进行分析，但是新兴的产品有的只有 APP，并没有网页端这对

╰+攻爆jí腚メ/ 2022年01月29日 08:13/ 0 赞/ 638 阅读

相关 python数据采集1-初见爬虫

初见网络爬虫网络连接注解当我们在访问百度([www.baidu.com/][www.baidu.com])，在你敲入网址并按下回车之后，将会发生以下神奇的事

￡神魔★判官ぃ/ 2022年01月19日 22:29/ 0 赞/ 400 阅读