在工作或者学习中难免会遇到各种复杂需求的项目,有的是跟时间相关,有的跟距离相关等。 场景1 交通轨迹问题 数据有terminal_id,city,up_time三列。目标是统计car终端每次经过一个city的时间段;不是经过每个city的总时间。每个时间段以当地的up_time为准。 数据实例 需要实现获取的结果为 实现代码 ###pyspark实现代码 场景2 计算网站用访问用户的留存时间 例如有一个网站的用户登录数据如下 | user_name|login_date| +----------+---------…