Structured Streaming

阳光穿透心脏的1/2处 2022-06-02 23:26 308阅读 0赞

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。Structured Streaming顾名思义，它将数据源和计算结果都映射成一张”结构化”的表，在计算的时候以结构化的方式去操作数据流，大大方便和提高了数据开发的效率。

Spark2.0之前，流式计算通过Spark Streaming进行：

spark

使用Spark Streaming每次只能消费当前批次内的数据，当然可以通过window操作，消费过去一段时间（多个批次）内的数据。举个简例子，需要每隔10秒，统计当前小时的PV和UV，在数据量特别大的情况下，使用window操作并不是很好的选择，通常是借助其它如Redis、HBase等完成数据统计。

Structured Streaming将数据源和计算结果都看做是无限大的表，数据源中每个批次的数据，经过计算，都添加到结果表中作为行。

spark

先试试官方给的例子，在本地启动NetCat： nc -lk 9999

./spark-shell（以local模式进入spark-shell命令行），运行下面的程序：

import org.apache.spark.sql.functions._

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.appName(“StructuredNetworkWordCount”).getOrCreate()

import spark.implicits._

val lines = spark.readStream.format(“socket”).option(“host”, “localhost”).option(“port”, 9999).load()

// Split the lines into words
val words = lines.as[String].flatMap(_.split(“ “))

// Generate running word count
val wordCounts = words.groupBy(“value”).count()

val query = wordCounts.writeStream.outputMode(“complete”).format(“console”).start()
query.awaitTermination()

在NetCat会话中输入”apache spark”，spark-shell中显示：

![Image 1][]

在NetCat会话中分两次再输入”apache hadoop”，”hadoop spark”， spark-shell中显示：

![Image 1][]

可以看到，每个Batch显示的结果，都是完整的WordCount统计结果，这便是结算结果输出中的完整模式（Complete Mode）。

关于结算结果的输出，有三种模式：

Complete Mode：输出最新的完整的结果表数据。
Append Mode：只输出结果表中本批次新增的数据，其实也就是本批次中的数据；
Update Mode（暂不支持）：只输出结果表中被本批次修改的数据；

这些Output，可以直接通过连接器（如MySQL JDBC、HBase API等）写入外部存储系统。

其余的模式自己测试即可，
注意：Append模式不支持基于数据流上的聚合操作（Append output mode not supported when there are streaming aggregations on streaming DataFrames/DataSets）；

[Image 1]:

发表评论取消回复

表情：

评论列表（有 0 条评论，308人围观）

还没有评论，来说两句吧...

相关阅读

相关七、Structured Streaming Kafka

1、pom.xml <properties> <project.build.sourceEncoding>UTF-8</project.bui...

朱雀/ 2024年04月18日 16:01/ 0 赞/ 186 阅读

相关 Structured Streaming 简介

1. Structured Streaming 关键思想把数据流视作一张数据不断增加的表，这样用户就可以基于这张表进行数据处理，就好像使用批处理来处理

雨点打透心脏的1/2处/ 2023年06月19日 11:12/ 0 赞/ 145 阅读

相关 Structure Streaming-RateResource

以固定的速率生成固定格式的数据, 用来测试 Structured Streaming 的性能. import org.apache.spark.sql.SparkSe

╰+哭是因爲堅強的太久メ/ 2023年02月20日 03:17/ 0 赞/ 108 阅读

相关 Structure Streaming-Kafka source

导入依赖: <dependency> <groupId>org.apache.spark</groupId> <art

曾经终败给现在/ 2023年02月20日 03:16/ 0 赞/ 95 阅读

相关 Structure Streaming-单词计数

为了使用稳定新的 Structure Streaming, 我们使用新版本. 本案例是从一个网络端口中读取数据, 并统计每个单词出现的数量. `导入依赖` <

爱被打了一巴掌/ 2023年02月20日 03:14/ 0 赞/ 120 阅读

相关 Structured Streaming详解

目录一、Structured Streaming概述（1）Structured Streaming背景（2）S

àì夳堔傛蜴生んèń/ 2022年12月29日 11:27/ 0 赞/ 263 阅读

相关 Spark Streaming 对比 Structured Streaming

[Spark——Spark Streaming 对比 Structured Streaming][Spark_Spark Streaming _ Structured Stre

青旅半醒/ 2022年10月07日 00:58/ 0 赞/ 133 阅读

相关 Structured Streaming

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方

阳光穿透心脏的1/2处/ 2022年06月02日 23:26/ 0 赞/ 309 阅读

相关 Structured Streaming入门实例

Structured Streaming入门实例 Structured Streaming是Spark2.4版本推出的新的实时流处理计算。相比Spark Streamin

旧城等待，/ 2022年03月28日 12:48/ 0 赞/ 287 阅读

相关 Spark Structured Streaming

With the ubiquity of real-time data, organizations need streaming systems that are scala

雨点打透心脏的1/2处/ 2022年01月20日 11:59/ 0 赞/ 288 阅读