В Hadoop, как обрабатывать ежедневно растущие данные:
Например:
1-й день у меня может быть 1 миллион файлов в некоторой входной папке (например, hadoop / demo)
2-й день в той же папке, файлы могут увеличиться с существующего 1 миллиона файлов + еще один новый миллион файлов, то есть всего 2 миллиона.
также 3-ий 4-й день ... продолжай идти.
Мое ограничение -> файлы 1-го дня не должны обрабатываться на следующий день.
(т. Е.) Уже обработанные файлы не должны снова обрабатываться при добавлении новых файлов. Более конкретно, должны обрабатываться только новые добавленные файлы, а более старыми файлами следует пренебрегать.
Так помогите мне, как я могу решить эту проблему.
Тем не менее, если вы не поняли ограничение, пожалуйста, скажите, где неясно, чтобы я мог подробнее рассказать о своем ограничении!