Я использую sqoop для импорта данных из Oracle в HDFS.
Я ежедневно импортирую около 30 таблиц (в инкрементах).
Сегодня я только что обнаружил, что мое задание sqoop не сохраняет последнее обновленное значение в metastore. Ежедневно используется значение столбца сохранения для добавочного импорта.
Ниже приведены журналы за последние два дня: -
за 5 мая 2019 г. -
19/05/05 01:37:10 INFO tool.ImportTool: Lower bound value:
TO_TIMESTAMP('2019-04-26 21:25:19.0', 'YYYY-MM-DD HH24:MI:SS.FF')
19/05/05 01:37:10 INFO tool.ImportTool: Upper bound value:
TO_TIMESTAMP('2019-05-04 21:25:25.0', 'YYYY-MM-DD HH24:MI:SS.FF')
за 6 мая 2019 г. -
19/05/06 01:37:34 INFO tool.ImportTool: Lower bound value:
TO_TIMESTAMP('2019-04-26 21:25:19.0', 'YYYY-MM-DD HH24:MI:SS.FF')
19/05/06 01:37:34 INFO tool.ImportTool: Upper bound value:
TO_TIMESTAMP('2019-05-05 21:25:23.0', 'YYYY-MM-DD HH24:MI:SS.FF')
Здесь вы можете увидеть его значение 2019-04-26 21: 25: 19.0 в качестве последнего обновления. Это приведет к дублированию данных в моем месте назначения.
Так, что я должен сделать, чтобы решить эту проблему?
Любая помощь по этому вопросу будет принята с благодарностью.
Спасибо