架构智慧
kafka
实时计算

给你的数据平台选择合适的流引擎

现在大多数数据仓库和数据湖都是面向批处理的,其中数据是在文件系统或数据库中采集的,并分批处理。 但是,当前的技术进步是完全依赖批处理模式的竞争劣势。 因此,大数据系统正在不断发展,以更加面向流的方式在数据到达时进行处理,从而获得与同行相比的竞争优势。 如今,市场上有许多开源流框架可用,并且几乎所有这些框架都是在最近几年中开发的。 随着一切的快速发展,在选择适合您需求的框架时,很容易感到困惑和迷茫。 这些系统需要连续处理无限的数据流,因此随着数据量的增长,它们需要具有弹性,高可用性和可伸缩性。 让我们简要介绍一下各种…

2020年09月04日 0条评论 717点热度 0人点赞 阅读全文
实时计算

spark streaming解析kafka json嵌套数组数据的两种方法

在大部分的项目中,使用spark streaming读取kafka的架构中,kafka的数据都是json格式发送的,比较复杂一些的是json中嵌套数组json格式,下面总结了两种解析方法 json数据格式 第一种方法 使用json4s的默认转化器解析 实现代码如下 第二种 使用spark.read.json解析数据 核心代码 依赖库配置 build.sbt

2020年08月26日 0条评论 1349点热度 2人点赞 阅读全文
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2023年3月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 7月    
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
窗口函数 flink kafka elasticsearch 实时计算 hive spark dataframe
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号