Блоки данных - CSV не загружается должным образом - PullRequest
0 голосов
/ 15 января 2019

У меня есть простой CSV-файл с разделителем каналов, который я могу загрузить в Databricks, затем отключить df, и он отобразится хорошо. Затем я пытаюсь с моим основным набором данных, который отформатирован таким же образом, и экспорт с сервера SQL. После загрузки вывод показывает, что он был загружен (перечислены имена полей и тип данных, которые он вывел - вся строка, хотя это не является хорошим признаком)

df = spark.read.format("csv").options(header='true', quote='"', delimiter="|",ignoreLeadingWhiteSpace='true',inferSchema='true').load("/mnt/gl/mainfile.csv")

Затем я отображаю (df) и не вижу хорошего дисплея. Вместо этого он показывает следующее:

Job 34 View

(Stages: 1/1)

Job 35 View

(Stages: 1/1)

Job 36 View

(Stages: 1/1)

Очевидно, что здесь виноват CSV, но я не знаю, как решить эту проблему - я уже был осторожен с тем, как экспортировать его из SQL-сервера, поэтому не уверен, что я буду делать по-другому там.

1 Ответ

0 голосов
/ 15 января 2019

Хорошо, я решил это. Если у вас возникла похожая проблема, это может означать, что ваш CSV не отформатирован должным образом. Откройте свое резюме с помощью текстового редактора, такого как Ron's Editor, затем визуально проверьте данные. В моем наборе данных по какой-то причине последнее поле, которое представляет собой сумму $, было «перед ним, но не в конце».

например. «12344,67

Не уверен, почему SQL Server будет это делать (я использовал Мастер импорта / экспорта), но я избавился от "разделителя" в моем экспортированном csv, и теперь он отлично работает

...