Должен ли я использовать схему при экстрагировании данных из postgresql в pyspark dataframe - PullRequest
0 голосов
/ 10 мая 2019

У меня есть работа pyspark, берущая данные из базы данных postgresql.Должен ли я использовать схему при чтении этих данных для оптимизации и ускорения извлечения?(Обычно при чтении данных создание схемы делает чтение более быстрым, как я его понимаю)

Затем данные преобразуются в кадр данных pandas. В этом преобразовании я должен указать схему или она уже оптимизирована?

1 Ответ

0 голосов
/ 10 мая 2019

Вам не нужно использовать схему каждый раз, когда вы что-то читаете с помощью spark.

  • вам нужна (или вывести) схема для CSV, JSON
  • вам не нужна схема для PARQUET, AVRO, ORC, DB

Проверьте официальный документ reader, чтобы увидеть, если вы можете добавить опцию schema. Если нет, нет необходимости предоставлять схему.

При преобразовании из фрейма данных pyspark в фрейм данных pandas схема сохраняется. Не нужно ничего добавлять. Просто убедитесь, что у вас достаточно места в памяти.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...