Лучший способ проверить полученные данные - PullRequest
0 голосов
/ 19 октября 2018

Я ежедневно принимаю данные из различных внешних источников, таких как GA, скребки, Google BQ и т. Д. Я сохраняю созданный файл CSV в HDFS, создаю из него таблицу этапов и затем добавляю ее в историческую таблицу в Hadoop.Можете ли вы поделиться некоторыми лучшими практиками, как валидировать новые данные с историческими?Как, например, сравнить количество строк фактических данных со средним значением за последние 10 дней или что-то подобноеЕсть какой-нибудь готовый раствор в искре или что-то?

Спасибо за советы.

...