Мы создаем процесс для отправки двоичного журнала MySQL в поток kinesis для подачи в хранилище данных. Любые предложения о том, как мы можем эффективно провести некоторую проверку данных между источником [MySQL] и хранилищем данных, чтобы определить, есть ли у нас потеря данных.
Проблема в том, что некоторые таблицы не имеют надежной временной метки, поэтому сложно запросить данные в заданном временном окне.
Несколько идей, которые у нас были:
- SUM / MAX / MIN первичного ключа
- Контрольная сумма всех столбцов для первичного ключа
- Подсчет количества записей, которые были помещены в поток кинезисов в сравнении с хранилищем данных
Спасибо за ваши предложения!