Spark/Streaming

我就是我 2022-08-02 12:53 337阅读 0赞

Spark Streaming 是基于Spark处理流式数据的框架,对数据进行实时处理。

Streaming

streaming将数据离散化，按照batch size分成一段段的Dstream,然后每一个Dstream转换为一个RDD，将RDD经过操作变成中间结果保存在内存中。整个流式计算可以对中间的结果进行叠加，或者存储到外部设备。

Spark Streaming将流式计算分解成多个Spark Job，对于每一段数据的处理都会经过Spark DAG图的分解，以及Spark的任务集的调度过程。

val ssc=new StreamingContext( “Spark://“ ,”name”,Seconds(20))

数据源：

1.外部文件系统，如HDFS。Streaming可以监控一个目录中新产生的数据，并及时处理。出错时重新读取数据。

2.网络系统,Kafka、Flume、TCP socket。Streaming会默认在两个不同节点加载数据到内存，一个节点出错，系统可以通过另一个节点的数据重算。

File System

streamingContext.fileStream(dataDirectory)

TCP socket

通过socket作为输入流，监听某个特定的端口，得到输入的DStream。

val lines=ssc.socketTextStream(serverIP,serverPort)

Kafka

KafkaUtils.createStream (streamingContext , kafkaParams,…)

Spark为每个input dstream运行一个receiver，这意味着多个input dstream 可以运行在多个core上并行读取。在kafka中，如果每个input dstream读取不同的topic，可以实现同时读取。

Spark Streaming 支持并使用的数据流为Dstream，类似于RDD。Dstream是一种连续的RDDs。

textFileStream,Spark Streaming 以文件系统作为输入流。

(1)path目录下的文件格式都是一样的。

(2)在这个目录下创建文件都是通过移动或者重命名的方式创建的

(3)创建文件后不能修改

操作DStream

Streaming中的Dstream支持两种操作：Transformation和output。

1.Transformation,对离散化数据集进行处理

window( windowlength , slideInterval)

repartition(numPartitions) 增加分区，提高并行度

union(otherstream) 合并两个流

join(otherstream ,[numTasks]) 把(K,V)和(K,W)的Dstream连接成一个(K,(V,W))的新的Dstream

cogroup(otherstream ,[numTasks]) 把(K,V)和(K,W)的Dstream连接成一个(K,Seq[V],Seq[W])的新的Dstream

2.Output操作

print() 打印到控制台

foreachRDD(func) 对Dstream里面的每个RDD执行func，保存到外部系统

3.窗口操作

窗口操作涉及两个参数：滑动窗口的宽度window Duration，窗口滑动频率Slide Duration，这两个参数必须是batch size的倍数。

reduceByKeyAndWindow(_+_,Seconds(5s) , seconds(1)) 以过去5s作为一个输入窗口，每1s执行一次，然后将过去5s的执行结果统计叠加。

4.状态操作

UpdateStateByKey 保存状态信息，使用该操作持续更新状态数值。

(1) 定义状态state，state可以是任意类型的数据类型。

(2) 定义状态更新函数，从一个状态更改到新状态。

状态更新函数对里面的每个元素调用一下更新函数。

def updateFunction(newValues:Seq[Int] ,oldValues:Option[Int]): Option[Int] ={

...

Some(newValues+oldValues)

}

RDD检查点

状态的操作是基于多个批次的数据的。因为状态的操作要依赖于上一个批次的数据，所以要根据时间，不断积累数据。为了清空数据，支持周期性的检查点，通过把中间结果保存在hdfs上。通常，5-10秒的检查间隔时间是比较合适的。

ssc.checkpoint(hdfspath) //设置检查点的保存位置

dstream.checkpoint(checkpointInterval) //设置检查点间隔

代码总结

val sparkconf = new SparkConf()

//Seconds指定Spark Streaming 处理数据的时间间隔为30秒

val ssc=new StreamingContext(sparkconf, Seconds(30))

//监控目录

val lines=ssc.textFileStream(“file:///path”)

//启动监控

ssc.start()

//等待计算完毕退出

ssc.awaitTermination()

发表评论取消回复

表情：

评论列表（有 0 条评论，337人围观）

还没有评论，来说两句吧...

相关阅读

相关 SparkStreaming (一) --------- SparkStreaming 概述

目录一、Spark Streaming 是什么 ? 二、Spark Streaming 的特点二、Spark Streaming 架构

小鱼儿/ 2024年04月07日 13:12/ 0 赞/ 229 阅读

相关 SparkStreaming教程

SparkStreaming教程概要 Spark流是对于Spark核心API的拓展，从而支持对于实时数据流的可拓展，高吞吐量和容错性流处理。数据可以由多个源取得，例如

「爱情、让人受尽委屈。」/ 2023年07月03日 10:49/ 0 赞/ 102 阅读

相关 SparkStreaming概述

SparkStreaming概述 1.1 Spark Streaming是什么 ![在这里插入图片描述][20210126223839932.png] ![在这

忘是亡心i/ 2023年01月11日 13:00/ 0 赞/ 296 阅读

相关 Spark--sparkStreaming

概述 Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kines

左手的ㄟ右手/ 2022年05月17日 07:10/ 0 赞/ 396 阅读

相关 SparkStreaming演示

首先启动hadoop 1.sparkstreaming监听端口计算wordcount 安装nc：yum install -y nc 启动一个socket服务

向右看齐/ 2022年05月17日 06:18/ 0 赞/ 339 阅读

相关 sparkStreaming内核剖析

Receiver从kafka中接收的数据都是一条一条的数据，那么接下来，会将这一条一条的数据存储到currnetBuffer（ArrayBuffer）,这时有一个线程（Bloc

ゞ浴缸里的玫瑰/ 2022年05月16日 13:38/ 0 赞/ 378 阅读

相关 SparkStreaming DStream

DStream就是离散流，它代表了一个持续不断的数据流，DStream的内部，其实是一系列不断产生的RDD,RDD是Spark Core的核心抽象，DStream中的每个RDD

谁借莪１个温暖的怀抱￠/ 2022年05月16日 11:15/ 0 赞/ 373 阅读

相关 SparkStreaming例题

取材自官网http://Spark.apache.org 案例1：和集群搭配使用 package SparkStreaming import ja

太过爱你忘了你带给我的痛/ 2022年04月02日 07:26/ 0 赞/ 351 阅读

相关 SparkStreaming

SparkStreaming 一、SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量

痛定思痛。/ 2021年11月23日 14:20/ 0 赞/ 505 阅读

相关 SparkStreaming简单介绍；SparkStreaming处理数据流程；SparkStreaming运行工作原理与简单优化

SparkStreaming简单介绍流式数据处理（stream processing）要处理的数据就像流水一样，源源不断的产生数据，需要实时进行处理

朱雀/ 2021年11月01日 06:32/ 0 赞/ 529 阅读