架构智慧
架构智慧
大数据主流架构经验交流分享
离线计算

使用spark窗口函数解决复杂条件场景问题

在工作或者学习中难免会遇到各种复杂需求的项目,有的是跟时间相关,有的跟距离相关等。 场景1 交通轨迹问题 数据有terminal_id,city,up_time三列。目标是统计car终端每次经过一个city的时间段;不是经过每个city的总时间。每个时间段以当地的up_time为准。 数据实例 需要实现获取的结果为 实现代码 ###pyspark实现代码 场景2 计算网站用访问用户的留存时间 例如有一个网站的用户登录数据如下 | user_name|login_date| +----------+---------…

2020年08月11日 0条评论 903点热度 0人点赞 阅读全文
分类目录
  • 大数据浪潮 (2)
  • 实时数仓 (1)
  • 实时计算 (6)
  • 离线计算 (4)
2020年8月
一 二 三 四 五 六 日
 12
3456789
10111213141516
17181920212223
24252627282930
31  
« 7月   9月 »
文章归档
  • 2021年7月 (2)
  • 2020年9月 (4)
  • 2020年8月 (4)
  • 2020年7月 (2)
  • 2020年6月 (1)
标签聚合
窗口函数 kafka hive 实时计算 flink elasticsearch dataframe spark
友情链接
  • 大数据导航
  • 网站地图
  • 隐私政策

COPYRIGHT © 2020 架构智慧. ALL RIGHTS RESERVED.

THEME KRATOS MADE BY VTROIS

京ICP备19056408号