У меня есть требование записать большой фрейм данных Spark в SQL Server.Это пакетное задание, которое запускается с использованием Spark 1.6.1 и Python 2.7 один раз в день.
Параметры:
- append: Если задание не выполнено (из-зак усечению типа данных, проблеме с подключением и т. д.) запись завершается частичной записью данных в SQL Server (не атомарных).
- перезапись: Таблица удаляется и создается вместо усечения(все типы данных заканчиваются как текст в целевой таблице SQL Server)
- pandas: Если я преобразую фрейм данных Spark в фрейм данных pandas, я получу атомарность, но это не масштабируется
Может кто-нибудь предложить наилучший подход (без использования промежуточного стола)?