架构智慧
离线计算
离线计算

如何实现在zeppelin中的不同语言之间数据交换

zeppelin-context是一个用于通用实用程序函数和用户特定数据的系统范围容器。它实现了用于数据输入、数据显示等的功能,这些功能通常是必需的,但并非所有解释器都能统一使用。它的每个用户实例可以跨所有用户的笔记本和单元访问,从而支持单元之间的数据交换——甚至在不同的笔记本中。但是zeppelin-context的使用方式和可用的功能取决于相关的解释器是否基于一种编程语言。zeppelin-context如何用于不同目的和不同环境的细节描述如下。 1、在scala与python两种语言之间的对象交换方法 2、 …

2020年09月08日 0条评论 1406点热度 0人点赞 阅读全文
离线计算

hive数据导入elasticsearch

本文将详细介绍利用 ES 与 Hive 直接的数据交互;通过 Hive 外部表的方式,可以快速将hive数据导入到 elasticsearch 中,不需要编写代码只需要 Hive SQL 实现对数据的ETL 一、开发环境 1、组件版本 CDH 集群版本:6.3.2 ES 版本:7.7.0 Hive 版本:2.1.1 ES-Hadoop 版本:7.7.0 2、配置Hive 支持 ES-Hadoop 一共有四个方法可以配置,可以任选一个进行安装配置 (1)使用 add jar 在hive命令行或者hive s…

2020年08月21日 0条评论 1071点热度 3人点赞 阅读全文
离线计算

使用spark窗口函数解决复杂条件场景问题

在工作或者学习中难免会遇到各种复杂需求的项目,有的是跟时间相关,有的跟距离相关等。 场景1 交通轨迹问题 数据有terminal_id,city,up_time三列。目标是统计car终端每次经过一个city的时间段;不是经过每个city的总时间。每个时间段以当地的up_time为准。 数据实例 需要实现获取的结果为 实现代码 ###pyspark实现代码 场景2 计算网站用访问用户的留存时间 例如有一个网站的用户登录数据如下 | user_name|login_date| +----------+---------…

2020年08月11日 0条评论 903点热度 0人点赞 阅读全文
离线计算

spark遇到的空指针问题

最近在使用spark开发的过程中,遇到了一个空指针错误,spark处理数据的过程主要是 spark读取数据库数据做清洗转换,然后需要把数据和数据库中另一个表做匹配查询,查询到结果后存到hdfs. 因为数据量比较大,所以读出数据后,使用了foreachpartition在每个分区做处理优化,打算在分区中匹配数据后转换为dataframe,直接保存到hive,结果调试的过程中遇到了空指针错误,主要代码如下 结果运行调试的时候报告错误 google搜索了一下问题,找到答案 空指针异常的原因是因为dataframe,rdd…

2020年07月16日 0条评论 658点热度 0人点赞 阅读全文
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2023年3月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 7月    
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
窗口函数 spark 实时计算 kafka elasticsearch hive flink dataframe
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号