架构智慧
实时计算
实时计算

flink sql窗口函数总结

根据窗口数据划分的不同,目前 Flink 支持如下 4 种: 滚动窗口,窗口数据有固定的大小,窗口中的数据不会叠加; 滑动窗口,窗口数据有固定的大小,并且有生成间隔; 会话窗口,窗口数据没有固定的大小,根据用户传入的参数进行划分,窗口数据无叠加。 over窗口,它对每一行数据都生成窗口,在窗口上进行聚合,聚合的结果会生成一个新字段。 Flink 中的时间分为三种: 事件时间(Event Time),即事件实际发生的时间; 摄入时间(Ingestion Time),事件进入流处理框架的时间; 处理时间(Process…

2021年07月01日 0条评论 1518点热度 1人点赞 阅读全文
实时计算

spark sql中的window函数总结

在spark中, 对于一个数据集,map 是对每行进行操作,得到一个结果,一对一映射;reduce 则是对多行进行操作,得到一个结果,多对一汇总;而 window 函数则是对多行进行操作,得到多个结果,多行对应多行。 此篇博客会以实例介绍 window 函数的基本概念和用法。 windows窗口函数包含3种: ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API 排名类…

2020年09月27日 0条评论 1053点热度 0人点赞 阅读全文
实时计算

给你的数据平台选择合适的流引擎

现在大多数数据仓库和数据湖都是面向批处理的,其中数据是在文件系统或数据库中采集的,并分批处理。 但是,当前的技术进步是完全依赖批处理模式的竞争劣势。 因此,大数据系统正在不断发展,以更加面向流的方式在数据到达时进行处理,从而获得与同行相比的竞争优势。 如今,市场上有许多开源流框架可用,并且几乎所有这些框架都是在最近几年中开发的。 随着一切的快速发展,在选择适合您需求的框架时,很容易感到困惑和迷茫。 这些系统需要连续处理无限的数据流,因此随着数据量的增长,它们需要具有弹性,高可用性和可伸缩性。 让我们简要介绍一下各种…

2020年09月04日 0条评论 717点热度 0人点赞 阅读全文
实时计算

zeppelin整合cloudera6 spark streaming做数据实时分析

环境准备 zeppelin 0.8.2 cloudera 6.3.2 spark 2.4.0-cdh6.3.2 kafka 2.2.1 安装配置zeppelin 1、在安装zeppelin的节点安装cloudera agent,然后安装spark gateway、hive gateway客户端。 2、解压缩zeppelin-0.8.2-bin-all.tgz文件到/data目录 3 进入zeppelin-0.8.2-bin-all配置文件目录配置zeppelin 编辑zeppelin-env.sh文件,增加以下配置…

2020年09月02日 0条评论 1284点热度 2人点赞 阅读全文
实时计算

spark streaming解析kafka json嵌套数组数据的两种方法

在大部分的项目中,使用spark streaming读取kafka的架构中,kafka的数据都是json格式发送的,比较复杂一些的是json中嵌套数组json格式,下面总结了两种解析方法 json数据格式 第一种方法 使用json4s的默认转化器解析 实现代码如下 第二种 使用spark.read.json解析数据 核心代码 依赖库配置 build.sbt

2020年08月26日 0条评论 1349点热度 2人点赞 阅读全文
实时计算

在dataframe中添加新字段column的三种方法

在spark处理数据的项目开发过程中,经常会遇到清洗、转换数据的需求,转换数据就要在原来dataframe中增加新的字段,下面总结了3个常用增加字段的方法 首先创建一个dataframe数据实例 生成数据 方法1 使用withColumn()增加列 withColumn()用于在DataFrame上添加新列或更新现有列,在这里仅说明如何使用现有列添加新列。 withColumn()函数带有两个参数,第一个参数是新列的名称,第二个参数是Column类型中的列的值。 我们增加了一个新的字段 newsalary,字段值为…

2020年08月04日 0条评论 782点热度 0人点赞 阅读全文
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2023年3月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 7月    
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
kafka 实时计算 dataframe hive elasticsearch spark 窗口函数 flink
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号