Как лечить неправильные исторические данные в больших данных? - PullRequest
0 голосов
/ 24 апреля 2020

Я собрал много данных в кластере. Я знаю, что не рекомендуется обновлять предыдущие данные, но есть ошибки в исторических данных. Мне нужно пересчитать на основе новых правильных исходных данных, но рассчитанные результаты противоречат историческим данным. Потому что они имеют уникальные конфликты индексов.

В этом случае, каковы общие решения?

Стоит ли напрямую удалять исторические данные об ошибках?

...