Spark DataFrame обрабатывает поврежденную запись - PullRequest
0 голосов
/ 20 ноября 2018

В spark dataFrame, как обрабатывать поврежденную запись?На самом деле, я ищу поврежденную запись, которая должна быть сохранена в другом файле для последующего просмотра.Режим - опция DROPMALFORMED удалит поврежденную запись из набора данных.это поможет.

val data = sparkSession.read
                       .option("mode", "DROPMALFORMED")
                       .json("file:///C:/finances.json")

1 Ответ

0 голосов
/ 20 ноября 2018

Если вы хотите сохранить corrupted записи, вы можете отфильтровать их в другой фрейм данных и записать их в файл.

Подвох здесь в том, чтобы использовать PERMISSIVE (по умолчанию) и , а не Режим DROPMALFORMED, поскольку он отбрасывает поврежденные записи, которые вы хотите захватить.

PERMISSIVE: пытается проанализировать все строки: вставляются нулевые значения для отсутствующих токенов, а дополнительные токены игнорируются.

Затем, в зависимости от вашего условия коррупции, вы можете отфильтровать строки для значений null.

...