08-页面解析之数据提取-python爬虫

╰+哭是因爲堅強的太久メ 2022-12-10 14:41 233阅读 0赞

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。

### 关于结构化的数据 ###

**JSON、XML、HTML**

HTML文本（包含JavaScript代码）是最常见的数据格式，理应属于结构化的文本组织，但因为一般我们需要的关键信息并非直接可以得到

需要进行对HTML的解析查找，甚至一些字符串操作才能得到，所以还是归类于非结构化的数据处理中。

把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。

常见解析方式如下：XPath、CSS选择器、正则表达式

# HTML DOM 示例 #

HTML DOM 定义了访问和操作 HTML 文档的标准方法。

DOM 以树结构表达 HTML 文档。

![02f7ddce0bc39d9e38bfacd60506ce1f.png][]

# 文本数据 #

例如一篇文章，或者一句话，我们的初衷是提取有效信息，所以如果是滞后处理，可以直接存储，如果是需要实时提取有用信息，常见的处理方式如下：

*  分词根据抓取的网站类型，使用不同词库，进行基本的分词，**然后变成词频统计，类似于向量的表示，词为方向，词频为长度。**
 *  NLP自然语言处理，进行语义分析，用结果表示，例如正负面等。
    
    <table> 
     <tbody> 
      <tr> 
       <td> <p><img alt="" height="102" src="https://img-blog.csdnimg.cn/img_convert/9d33579c1dcd8bd81044937288066036.png" width="102"></p> <p>IT入门&nbsp;感谢关注</p> </td> 
       <td> <p>&nbsp;</p> &nbsp; <p>练习地址：<a href="http://www.520mg.com/it" rel="nofollow">www.520mg.com/it</a></p> <p><a href="https://blog.csdn.net/bigzql/category_10279338.html" rel="nofollow">0基础python爬虫系列教程</a></p> </td> 
      </tr> 
     </tbody> 
    </table>

[02f7ddce0bc39d9e38bfacd60506ce1f.png]: /images/20221123/d9650b7846b24a65a247bcaf1fcf536b.png

发表评论取消回复

表情：

评论列表（有 0 条评论，233人围观）

还没有评论，来说两句吧...

相关阅读

相关 Python爬虫实战：解析HTML页面

在Python爬虫中，解析HTML页面是非常基础且常用的操作。这里我们将使用BeautifulSoup（bs4）库来实现。首先，确保已经安装了`beautifulsoup4

淩亂°似流年/ 2025年01月30日 05:30/ 0 赞/ 25 阅读

相关 Python爬虫实践：解析HTML和提取数据

爬虫是一种自动抓取网页信息的程序。在Python中，我们可以使用各种库来实现爬虫。这里我们将重点介绍如何解析HTML和提取数据。 1. **安装必要的库**： - `r

迷南。/ 2025年01月26日 06:39/ 0 赞/ 38 阅读

相关 Python爬虫实战：解析HTML并提取数据

在Python中，我们可以使用各种库来解析HTML并提取数据。这里我们将使用两个主要的库：BeautifulSoup和requests。 **1. 导入所需库** ```p

叁歲伎倆/ 2025年01月12日 19:21/ 0 赞/ 38 阅读

相关 Python爬虫：解析HTML并提取数据的实例

Python爬虫是一种自动抓取网页信息的技术。以下是一个使用Python的BeautifulSoup库解析HTML并提取数据的简单示例：假设我们要抓取一个新闻网站（比如ht

一时失言乱红尘/ 2025年01月01日 04:57/ 0 赞/ 36 阅读

相关 Python爬虫-网页数据的解析提取-Xpath

一、初识Xpath XPath 常用规则 <table> <thead> <tr> <th>表　达　式</th> <th>描　　述</th>

港控/mmm°/ 2023年10月02日 23:39/ 0 赞/ 94 阅读

相关 08-页面解析之数据提取-python爬虫

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。关于结构化的数据 JSON、XML、

╰+哭是因爲堅強的太久メ/ 2022年12月10日 14:41/ 0 赞/ 234 阅读

相关 Python+实例解析Web页面元素提取

> 本文章介绍python实例解析——Web页面元素提取 > > 提取网页：http://ngchina.com.cn/ encoding=utf-8

Love The Way You Lie/ 2022年11月10日 10:57/ 0 赞/ 212 阅读

相关 08-页面解析之数据提取-python爬虫

辅助视频教程：[Python基础教程|xin3721自学网ul li id=itemtitlePython3 从入门到精通视频教程/li /ul ul li class=des

刺骨的言语ヽ痛彻心扉/ 2022年09月13日 05:17/ 0 赞/ 248 阅读

相关页面解析之数据提取-python爬虫

关于结构化的数据 JSON、XML、HTML HTML文本（包含JavaScript代码）是最常见的数据格式，理应属于结构化的文本组织，但因为一般我们需要的关键信息并非直接

柔光的暖阳◎/ 2022年09月12日 03:52/ 0 赞/ 298 阅读

相关 08 Python爬虫之selenium

\---恢复内容开始--- 一. 先介绍图片懒加载技术　　当获取一个网站的图片数据时，只能爬取到图片的名称，并不能获得链接，而且也不能获得xpath表达式。这是应用了图片

╰半夏微凉°/ 2021年11月02日 13:18/ 0 赞/ 536 阅读