架构智慧
架构智慧
大数据主流架构经验交流分享
实时计算

spark sql中的window函数总结

在spark中, 对于一个数据集,map 是对每行进行操作,得到一个结果,一对一映射;reduce 则是对多行进行操作,得到一个结果,多对一汇总;而 window 函数则是对多行进行操作,得到多个结果,多行对应多行。 此篇博客会以实例介绍 window 函数的基本概念和用法。 windows窗口函数包含3种: ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API 排名类…

2020年09月27日 0条评论 1053点热度 0人点赞 阅读全文
离线计算

如何实现在zeppelin中的不同语言之间数据交换

zeppelin-context是一个用于通用实用程序函数和用户特定数据的系统范围容器。它实现了用于数据输入、数据显示等的功能,这些功能通常是必需的,但并非所有解释器都能统一使用。它的每个用户实例可以跨所有用户的笔记本和单元访问,从而支持单元之间的数据交换——甚至在不同的笔记本中。但是zeppelin-context的使用方式和可用的功能取决于相关的解释器是否基于一种编程语言。zeppelin-context如何用于不同目的和不同环境的细节描述如下。 1、在scala与python两种语言之间的对象交换方法 2、 …

2020年09月08日 0条评论 1406点热度 0人点赞 阅读全文
实时计算

给你的数据平台选择合适的流引擎

现在大多数数据仓库和数据湖都是面向批处理的,其中数据是在文件系统或数据库中采集的,并分批处理。 但是,当前的技术进步是完全依赖批处理模式的竞争劣势。 因此,大数据系统正在不断发展,以更加面向流的方式在数据到达时进行处理,从而获得与同行相比的竞争优势。 如今,市场上有许多开源流框架可用,并且几乎所有这些框架都是在最近几年中开发的。 随着一切的快速发展,在选择适合您需求的框架时,很容易感到困惑和迷茫。 这些系统需要连续处理无限的数据流,因此随着数据量的增长,它们需要具有弹性,高可用性和可伸缩性。 让我们简要介绍一下各种…

2020年09月04日 0条评论 717点热度 0人点赞 阅读全文
实时计算

zeppelin整合cloudera6 spark streaming做数据实时分析

环境准备 zeppelin 0.8.2 cloudera 6.3.2 spark 2.4.0-cdh6.3.2 kafka 2.2.1 安装配置zeppelin 1、在安装zeppelin的节点安装cloudera agent,然后安装spark gateway、hive gateway客户端。 2、解压缩zeppelin-0.8.2-bin-all.tgz文件到/data目录 3 进入zeppelin-0.8.2-bin-all配置文件目录配置zeppelin 编辑zeppelin-env.sh文件,增加以下配置…

2020年09月02日 0条评论 1284点热度 2人点赞 阅读全文
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2020年9月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
282930  
« 8月   7月 »
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
kafka spark 窗口函数 flink elasticsearch dataframe 实时计算 hive
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号