Как прочитать файл JSON (Spark / Pyspark) с точками в именах столбцов, используя выведенную схему? - PullRequest
1 голос
/ 17 мая 2019

Я импортирую файлы JSON динамически (отправка нескольких имен файлов в сценарий параллельно), и один из моих файлов содержит точки в именах полей.

Когда это считывается в информационный фрейм для обработки, логический вывод схемы разбивает его на вложенные структуры (т. Е. «A.B.C» -> A [B [C]]).

Есть ли способ прочитать столбцы из файла, не разбивая имя столбца с точками?

Я понимаю, что обратные пометки могут определять имя столбца, но, поскольку я не могу явно определить схему перед чтением файла JSON, я не могу этого сделать.

df = sqlContext.read.option('multiline','true').json(<location>)
df.printSchema()

Я вижу поле "Стоимость замены" становится:

|-- P: struct (nullable = true)

 |    |-- O: struct (nullable = true)

 |    |    |-- Replacement Cost: double (nullable = true)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...