опция пакетного размера в pyspark dataframe.write () не работает - PullRequest
0 голосов
/ 11 ноября 2019

Я пытаюсь записать данные из pyspark в базу данных postgresql. Я использовал пакетный размер 1000, и общее количество данных в pyspark dataframe равно 10000. Но вставка, выполняемая в postgresql, не в пакетном режиме. Он вставляет данные один за другим. Следующий код используется для записи в БД

        df.write.
            option('batchsize',1000).jdbc(
            url=database_connection.url,
            table=data_table,
            mode="append",
            properties=database_connection.properties
        )

Пожалуйста, предложите какое-нибудь решение. Эта опция работает для POSTGRESQL Db?

1 Ответ

0 голосов
/ 11 ноября 2019

в зависимости от ресурсов (ядер), которые вы используете, параллельно распределяет загрузку данных с массовой загрузкой. Пакет обрабатывается внутри при извлечении из таблицы HDFS, но не при записи в таблицу. эта ссылка может помочь вам понять это.

...