Kudu数据冷备方案

概览

核心逻辑

  • 动态获取当月第一天年月日(yyyy-MM-dd)和上个月月第一天年月日(yyyy-MM-dd),根据时间范围去kudu拉取数据,将数据根据特定时间分区按照动态分区方式写入hive中。

  • 数据导入hive后根据时间分区范围统计hive写入数据个数,对比kudu该时间范围内个数和导入hive个数是否一致,不一致则冷备失败。

  • 如果数据导入成功,则会向Kudu表向后添加一个新分区,并且删除当前时间范围的分区,两步操作是一致性操作,要么都成功,要么都失败。

核心流程图

核心代码

冷热视图

视图创建

执行计划分析

最后更新于