Проверка данных CSV в Pyspark для сценария ETL - PullRequest
0 голосов
/ 21 марта 2019

У меня есть исходные данные из файла CSV, и я должен проверить их на качество данных.

  1. Первоначальная проверка файла

    a) Заголовок

    б) Размер файла

    в) Метка времени

  2. После успешного выполнения (1) необходимо проверить наличие ограничений, значений по умолчанию, минимальных и максимальных значений и значений диапазона

  3. Я должен записать в БД ошибки, если есть отклонение.А если отклонение составляет более 50%, отклонить весь файл.

Пожалуйста, сообщите.

...