Question

Журнал, сгенерированный из API, имеет недопустимый формат JSON. что-то вроде этого.

{"name": Power Amp,Component: Power Amplifier\n1/2 Inductor \n3 Power Capacitor\n Semiconductor\n Software\TV\n wafer\n Sony Dolby, \n \n L, pin, Or Amp"}
{name: Signal , Component: "1 make\n1 model, Halved \n1-1/2nd Rectifier\n Diode, to \n5 microwave\n8 henry\n8 ohm"}

Ошибка: есть ли встроенная функция в pySpark, которая позволяет нам обрабатывать сценарии такого типа.

Я пытаюсь создать либо RDD, либо DataFrame.

Ошибка: ошибка разбора в строке 1

Как мы можем обработать такой поврежденный файл JSON в Pyspark? Пожалуйста, поделитесь своими мыслями, если мы справимся с таким сценарием в pyspark

jo0gbe4bstjb · Answer 1 · 20 января 2020

Кажется, запрос генерирует избыточные строки. Таким образом, вы должны использовать функцию Different () для получения разных строк.

df.distinct().write.json('filepath.json');

Надеюсь, это поможет.

Неправильный разбор JSON в pySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Неправильный разбор JSON в pySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов