Как прочитать файл json.out из блоков данных - PullRequest
0 голосов
/ 02 мая 2019

Я работал с блоками данных для чтения вывода из Object2Vec в Sagemaker. Этот вывод сохраняется как jsonlines в формате .json.out.

df_emb = spark.read.option("multiLine", True).option("mode", "PERMISSIVE").json(bucket+key)

Когда я читаю этот файл как json, он читается как поврежденная запись. Ниже скриншот. enter image description here

Я могу предоставить файл, если вы знаете решение.

1 Ответ

0 голосов
/ 04 мая 2019

Для разбора jsonlines вы должны использовать однострочный режим вместо многострочного.

df_emb = spark.read.option("mode", "PERMISSIVE").json(bucket+key)

См. https://docs.databricks.com/spark/latest/data-sources/read-json.html#single-line-mode

...