Я - пользователь Apache Spark / Redis, и недавно я попытался spark-redis для проекта.Программа генерирует фреймы данных PySpark с приблизительно 3 миллионами строк, которые я записываю в базу данных Redis с помощью команды
df.write \
.format("org.apache.spark.sql.redis") \
.option("table", "person") \
.option("key.column", "name") \
.save()
, как предложено на странице фрейма проекта GitHub .
Однако я получаю несогласованное время записи для одной и той же конфигурации кластера Spark (одинаковое количество экземпляров EC2 и типов экземпляров).Иногда это происходит очень быстро, иногда слишком медленно.Есть ли способ ускорить этот процесс и получить согласованное время записи?Интересно, происходит ли это медленно, когда внутри уже много ключей, но это не должно быть проблемой для хеш-таблицы, не так ли?