Неправильный разбор JSON в pySpark - PullRequest
0 голосов
/ 19 января 2020

Журнал, сгенерированный из API, имеет недопустимый формат JSON. что-то вроде этого.

{"name": Power Amp,Component: Power Amplifier\n1/2 Inductor \n3 Power Capacitor\n Semiconductor\n Software\TV\n wafer\n Sony Dolby, \n \n L, pin, Or Amp"}
{name: Signal , Component: "1 make\n1 model, Halved \n1-1/2nd Rectifier\n Diode, to \n5 microwave\n8 henry\n8 ohm"}

Ошибка: есть ли встроенная функция в pySpark, которая позволяет нам обрабатывать сценарии такого типа.

Я пытаюсь создать либо RDD, либо DataFrame.

Ошибка: ошибка разбора в строке 1

Как мы можем обработать такой поврежденный файл JSON в Pyspark? Пожалуйста, поделитесь своими мыслями, если мы справимся с таким сценарием в pyspark

1 Ответ

0 голосов
/ 20 января 2020

Кажется, запрос генерирует избыточные строки. Таким образом, вы должны использовать функцию Different () для получения разных строк.

df.distinct().write.json('filepath.json');

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...