Question

Я читаю из AWS (s3) и записываю в базу данных (exasol), занимая слишком много времени, даже если настройка размера пакета не влияет на производительность.Я пишу 6,18 млн строк (около 3,5 ГБ), занимая 17 минут

, работая в режиме кластера. 20 узлов кластера

, как я могу сделать это быстро

Набор данных ds = session.read() .parquet (s3Path)

ds.write (). format ("jdbc"). option ("user", username) .option ("пароль", пароль) .option ("драйвер",Conf.DRIVER) .option ("url", dbURL) .option ("dbtable", exasolTableName) .option ("пакетный размер", 50000) .mode (SaveMode.Append) .save ();

wildraid · Answer 1 · 07 декабря 2018

Хорошо, это интересный вопрос.

Я не проверял детали реализации недавно выпущенного соединителя Spark.Но вы можете использовать некоторые ранее существующие методы.

Сохранить результаты работы Spark как файлы CSV в Hadoop.Запустите стандартный параллельный ИМПОРТ из всех созданных файлов через HTTP-вызовы WebHDFS.
Официальный UDF-скрипт , насколько я знаю, способен импортировать напрямую из Parquet.
Вы можетеРеализуйте свой собственный Java UDF-скрипт, чтобы читать Parquet так, как вы хотите.Например, вот как это работает для файлов ORC .

Вообще говоря, лучший способ добиться некоторой реальной производительности - вообще обойти Spark.

Запись данных Spark в базу данных (Exasol) с помощью jdbc slow

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Запись данных Spark в базу данных (Exasol) с помощью jdbc slow

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов