Я пытаюсь загрузить данные в S3 в экземпляр Aurora MySQL. Я сделал это с помощью PySpark, производительность которого составляет 4 ГБ в час.
current_df.write.format('jdbc').options(
url=url,
driver=jdbc_driver,
dbtable=table_name,
user=username,
password=password).mode("overwrite").save()
Добавлено несколько улучшений производительности и отмечено улучшение производительности (7 ГБ в час), однако это все же не так уж и здорово.
Параметры, добавленные в URL JDBC
useServerPrepStmts=false&rewriteBatchedStatements=true
Я попробовал другой подход
LOAD DATA FROM S3 's3://${s3.bucket}/${filename}' INTO TABLE ${TableName} FIELDS TERMINATED BY ',';
Таким образом он загружает 5 ГБ в час в MySQL.
У меня около 2 ТБ данных, необходимых для загрузки в экземпляр MySQL. Есть ли какой-нибудь возможный способ быстрее загрузить данные.