Метаданные неверной записи хранятся вместе с таблицей и включаются в счетчик. - PullRequest
0 голосов
/ 28 августа 2018
dfInput = spark.read
          .option("sep", props.inputSeperator)
          .option("header", hasHeader)
          .option("badRecordsPath", badRecordLoc)
          .schema(schema)
          .csv(inputLoc)

Эти входные данные имеют 3 записи, 2 хорошие записи, 1 плохую запись. Плохая запись правильно регистрируется в badRecordsPath

Если я отображаю фрейм данных, он правильно показывает 2 записи. Однако dfInput.count отображает 3 записи.

Затем, если я записываю этот фрейм данных в файл, а затем считываю этот файл обратно в фрейм данных, он правильно показывает 2 записи. (Поскольку в записанном файле только 2 файла, как и ожидалось). Я пытаюсь получить количество записей, не включая плохие записи, и я не хочу писать / читать файл, чтобы сделать это. Это похоже на ошибку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...