Spark Dataframe Write Corrupt - PullRequest
       6

Spark Dataframe Write Corrupt

0 голосов
/ 27 марта 2019

Я не знаю, правильное ли слово «коррупция» для описания случая. Я пытаюсь загрузить данные из RDBMS для запуска DataFrame, используя

var df = hiveContext.read.format("jdbc").options(....).load()

После некоторого приведения типов данных и т. Д., Затем я сохраняю фрейм данных в hdfs в определенный раздел на

df.write.format("parquet").save(path)

Затем я добавляю раздел в схему куста, изменяя таблицу add partition (). Данные доступны для выбора, но количество строк не совпадает. Этот случай имеет место для таблицы с большим количеством строк (строка xxx миллионов) либо для таблицы с небольшим количеством строк (строка xx тысяч). Но иногда все строки хранятся успешно.

Трудно понять, почему иногда это работает успешно, а иногда нет. Кто-нибудь сталкивался с таким же случаем?

примечание: df.write параллельно выполняется внутри функции потока

...