dfInput = spark.read
.option("sep", props.inputSeperator)
.option("header", hasHeader)
.option("badRecordsPath", badRecordLoc)
.schema(schema)
.csv(inputLoc)
Эти входные данные имеют 3 записи, 2 хорошие записи, 1 плохую запись. Плохая запись правильно регистрируется в badRecordsPath
Если я отображаю фрейм данных, он правильно показывает 2 записи. Однако dfInput.count
отображает 3 записи.
Затем, если я записываю этот фрейм данных в файл, а затем считываю этот файл обратно в фрейм данных, он правильно показывает 2 записи. (Поскольку в записанном файле только 2 файла, как и ожидалось). Я пытаюсь получить количество записей, не включая плохие записи, и я не хочу писать / читать файл, чтобы сделать это. Это похоже на ошибку.