Question

Я использую этот код для обновления нескольких записей в Redshift (около 30 000 записей за цикл).

cur = conn.cursor(cursor_factory=RealDictCursor)
sql_string_update = """UPDATE my_table SET "outlier_reason" = {0} WHERE "id" = {1};"""
for id, row in df_ignored.iterrows():
    sql_ = sql_string_update.format(row['outlier_reason'],id)
    cur.execute(sql_)
conn.commit()

Каждый запуск около 30 000 элементов занимает до 2 часов выполнения.

Есть ли способ ускорить этот запрос?

Red Boy · Answer 1 · 28 ноября 2018

Думая, вместо того чтобы прикасаться к столу и делать обновления один за другим, вы должны использовать ETL-способ ведения дел, я считаю, что это будет намного быстрее.Должен позаботиться о 30K записей за несколько минут.Вот подход.

Создайте промежуточную таблицу, скажем stg_my_table (id,outlier_reason).
Запишите данные своих программ Python в файл CSV или JSON, в зависимости от того, что подходит вашему случаю.Сохраните его в S3 или EC2.
. Используйте copy команду для загрузки в stg_my_table вместе с ID.
Обновите my_table с помощьюсоединяя его с stg_my_table, используя идентификатор и устанавливая outlier_reason.

Я думаю, что вышеупомянутое решение должно сократить время обработки с 2 часов до нескольких минут.Пожалуйста, попробуйте этот способ вручную, прежде чем писать реальный код.Я уверен, что вы увидите очень многообещающие результаты, а затем оптимизируете каждый из вышеперечисленных шагов один за другим, чтобы повысить производительность.

медленный запрос на обновление с красным смещением из python 3 с использованием psycopg2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

медленный запрос на обновление с красным смещением из python 3 с использованием psycopg2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы