架构智慧
架构智慧
大数据主流架构经验交流分享
大数据浪潮

大数据发展简史

什么是大数据? 在当今的业务环境中,数据管理平台(DMP)可以成为成功与否的主要决定因素。大多数企业已经开始意识到采用可通过大数据应用来转变战略的重要性。通过这种努力,企业认识到大数据不仅仅是一种技术。相反,大数据是一种趋势,跨越了业务和技术的众多领域。 大数据是一个术语,指的是计划和技术,其中包含的数据过于多样化,发展迅速,而对于普通技术,基础架构和技能而言,这些数据过于庞大,无法详尽地解决。那是; 数据的数量,速度和多样性都太大了。尽管这些数据非常复杂,但技术的进步仍使企业能够从大数据中汲取价值。 例…

2020年06月28日 0条评论 2217点热度 3人点赞 阅读全文
实时计算

flink sql窗口函数总结

根据窗口数据划分的不同,目前 Flink 支持如下 4 种: 滚动窗口,窗口数据有固定的大小,窗口中的数据不会叠加; 滑动窗口,窗口数据有固定的大小,并且有生成间隔; 会话窗口,窗口数据没有固定的大小,根据用户传入的参数进行划分,窗口数据无叠加。 over窗口,它对每一行数据都生成窗口,在窗口上进行聚合,聚合的结果会生成一个新字段。 Flink 中的时间分为三种: 事件时间(Event Time),即事件实际发生的时间; 摄入时间(Ingestion Time),事件进入流处理框架的时间; 处理时间(Process…

2021年07月01日 0条评论 1736点热度 1人点赞 阅读全文
实时数仓

互联网公司实时数仓架构总结

我们要建设实时数仓的主要原因是: 公司业务对于数据的实时性越来越迫切,需要有实时数据来辅助完成决策 实时数据建设没有规范,数据可用性较差,无法形成数仓体系,资源大量浪费 数据平台工具对整体实时开发的支持也日渐趋于成熟,开发成本降低 实时数仓的应用场景 实时OLAP分析:OLAP分析本身就是数仓领域重点解决的问题,提升数仓的时效性能力,使其具有较优的实时数据分析能力。 实时数据看板:这类场景是目前公司实时侧主要需求场景,例如实时大屏曲线展示,当日分钟级订单侧核心指标数据展示,增长类项目资源投入和收益实时效果展示等。 …

2021年07月01日 0条评论 1178点热度 0人点赞 阅读全文
实时计算

spark sql中的window函数总结

在spark中, 对于一个数据集,map 是对每行进行操作,得到一个结果,一对一映射;reduce 则是对多行进行操作,得到一个结果,多对一汇总;而 window 函数则是对多行进行操作,得到多个结果,多行对应多行。 此篇博客会以实例介绍 window 函数的基本概念和用法。 windows窗口函数包含3种: ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API 排名类…

2020年09月27日 0条评论 1154点热度 0人点赞 阅读全文
离线计算

如何实现在zeppelin中的不同语言之间数据交换

zeppelin-context是一个用于通用实用程序函数和用户特定数据的系统范围容器。它实现了用于数据输入、数据显示等的功能,这些功能通常是必需的,但并非所有解释器都能统一使用。它的每个用户实例可以跨所有用户的笔记本和单元访问,从而支持单元之间的数据交换——甚至在不同的笔记本中。但是zeppelin-context的使用方式和可用的功能取决于相关的解释器是否基于一种编程语言。zeppelin-context如何用于不同目的和不同环境的细节描述如下。 1、在scala与python两种语言之间的对象交换方法 2、 …

2020年09月08日 0条评论 1523点热度 0人点赞 阅读全文
实时计算

给你的数据平台选择合适的流引擎

现在大多数数据仓库和数据湖都是面向批处理的,其中数据是在文件系统或数据库中采集的,并分批处理。 但是,当前的技术进步是完全依赖批处理模式的竞争劣势。 因此,大数据系统正在不断发展,以更加面向流的方式在数据到达时进行处理,从而获得与同行相比的竞争优势。 如今,市场上有许多开源流框架可用,并且几乎所有这些框架都是在最近几年中开发的。 随着一切的快速发展,在选择适合您需求的框架时,很容易感到困惑和迷茫。 这些系统需要连续处理无限的数据流,因此随着数据量的增长,它们需要具有弹性,高可用性和可伸缩性。 让我们简要介绍一下各种…

2020年09月04日 0条评论 803点热度 0人点赞 阅读全文
实时计算

zeppelin整合cloudera6 spark streaming做数据实时分析

环境准备 zeppelin 0.8.2 cloudera 6.3.2 spark 2.4.0-cdh6.3.2 kafka 2.2.1 安装配置zeppelin 1、在安装zeppelin的节点安装cloudera agent,然后安装spark gateway、hive gateway客户端。 2、解压缩zeppelin-0.8.2-bin-all.tgz文件到/data目录 3 进入zeppelin-0.8.2-bin-all配置文件目录配置zeppelin 编辑zeppelin-env.sh文件,增加以下配置…

2020年09月02日 0条评论 1375点热度 2人点赞 阅读全文
实时计算

spark streaming解析kafka json嵌套数组数据的两种方法

在大部分的项目中,使用spark streaming读取kafka的架构中,kafka的数据都是json格式发送的,比较复杂一些的是json中嵌套数组json格式,下面总结了两种解析方法 json数据格式 第一种方法 使用json4s的默认转化器解析 实现代码如下 第二种 使用spark.read.json解析数据 核心代码 依赖库配置 build.sbt

2020年08月26日 0条评论 1533点热度 2人点赞 阅读全文
离线计算

hive数据导入elasticsearch

本文将详细介绍利用 ES 与 Hive 直接的数据交互;通过 Hive 外部表的方式,可以快速将hive数据导入到 elasticsearch 中,不需要编写代码只需要 Hive SQL 实现对数据的ETL 一、开发环境 1、组件版本 CDH 集群版本:6.3.2 ES 版本:7.7.0 Hive 版本:2.1.1 ES-Hadoop 版本:7.7.0 2、配置Hive 支持 ES-Hadoop 一共有四个方法可以配置,可以任选一个进行安装配置 (1)使用 add jar 在hive命令行或者hive s…

2020年08月21日 0条评论 1172点热度 3人点赞 阅读全文
离线计算

使用spark窗口函数解决复杂条件场景问题

在工作或者学习中难免会遇到各种复杂需求的项目,有的是跟时间相关,有的跟距离相关等。 场景1 交通轨迹问题 数据有terminal_id,city,up_time三列。目标是统计car终端每次经过一个city的时间段;不是经过每个city的总时间。每个时间段以当地的up_time为准。 数据实例 需要实现获取的结果为 实现代码 ###pyspark实现代码 场景2 计算网站用访问用户的留存时间 例如有一个网站的用户登录数据如下 | user_name|login_date| +----------+---------…

2020年08月11日 0条评论 1017点热度 0人点赞 阅读全文
实时计算

在dataframe中添加新字段column的三种方法

在spark处理数据的项目开发过程中,经常会遇到清洗、转换数据的需求,转换数据就要在原来dataframe中增加新的字段,下面总结了3个常用增加字段的方法 首先创建一个dataframe数据实例 生成数据 方法1 使用withColumn()增加列 withColumn()用于在DataFrame上添加新列或更新现有列,在这里仅说明如何使用现有列添加新列。 withColumn()函数带有两个参数,第一个参数是新列的名称,第二个参数是Column类型中的列的值。 我们增加了一个新的字段 newsalary,字段值为…

2020年08月04日 0条评论 901点热度 0人点赞 阅读全文
12
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2023年6月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
2627282930  
« 7月    
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
dataframe spark 窗口函数 elasticsearch 实时计算 flink kafka hive
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号