Параметр multiLine не работает в Spark 3.0.0-preview2 с использованием Java - PullRequest
2 голосов
/ 06 мая 2020

Я получаю поврежденный вывод записи при использовании параметра multiLine для файла json.

Я пробовал следующие параметры:

Dataset df2 = sparksession.read (). Option ("multiLine "," true "). json (" C: / MyProject / Files / multiline. json ");

Dataset df2 = sparksession.read (). option (" multiLine ", true). json ("C: / MyProject / Files / multiline. json");

Ниже json используется:

    [{
        "id": "1233",
        "Key": "123456",
        "geo_location": {
          "type": "ABC",
          "coordinates": [
            -45.00,
            36.00
          ]
        },
        "properties": {
          "no": "11111",
          "lat_and_lon": [
            36.00,
            -45.00
          ],
          "address": "W South St",
          "year": "2014"
        },
        "timestamp": "2014-03-21T12:28:00-05:00"
      }]

Output:
---------------------
|      _corrupt_record|
---------------------
|                   [{|
|        "id": "1233",|
|     "Key": "123456",|
|    "geo_location": {|
|       "type": "ABC",|
---------------------
...