基于spark进行多源数据关联统计分析

深藏阁楼爱情的钟 2023-07-03 03:18 39阅读 0赞

### spark引擎进行多数据关联分析 ###

*  业务背景
 *  解决方案
 *  代码示例

# 业务背景 #

很多统计需求是根据现有存储进行统计分析：
    1、关系型数据库存储基本关系数据，MySQL、oracle、pg等。
    2、非关系型数据库存储详细数据，MongoDB、HBase、ES等。

# 解决方案 #

通过spark引擎加载多源数据，进行统计分析。  
![统计流程图][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg_size_16_color_FFFFFF_t_70]  
处理流程图  
![处理流程图][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg_size_16_color_FFFFFF_t_70 1]

# 代码示例 #

//加载jdbc数据
      Dataset<Row>  userDataSet =  sqlContext.read().format("jdbc")
                    .option("url", "")//链接jdbc地址
                    .option("query", "select id, user_name from user")
                    .option("user", "root")
                    .option("password", "111111")
                    .load();
            userDataSet .createOrReplaceTempView("userView"); //创建虚拟映射
    
    //加载 hbase 数据 详细hbase如何加载请参考spark加载hbase文章
     Dataset<Row> logDataSet = sparkSession.read()
                    .format("org.apache.hadoop.hbase.spark")
                    .option(HBaseTableCatalog.tableCatalog(), "logCataLog 日志数据")
                    .load();
            logDataSet.createOrReplaceTempView("logDataView");
     
     Dataset<Row> logListDataSet = sqlContext.sql("select user_id, loginfo from logDataView"); 
     logListDataSet.createOrReplaceTempView("logListDataView");
    
    //关联查询
    Dataset<Row> userLog = sqlContext.sql("select * from logListDataView where user_id in (select id from userView)") //关联数据

接下来对 **userLog** 进行操作就可以了。

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg_size_16_color_FFFFFF_t_70]: https://img-blog.csdnimg.cn/20200201150145861.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg==,size_16,color_FFFFFF,t_70
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg_size_16_color_FFFFFF_t_70 1]: https://img-blog.csdnimg.cn/20200201150432560.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDI5NDMzMg==,size_16,color_FFFFFF,t_70