Вам не нужно использовать схему каждый раз, когда вы что-то читаете с помощью spark.
- вам нужна (или вывести) схема для CSV, JSON
- вам не нужна схема для PARQUET, AVRO, ORC, DB
Проверьте официальный документ reader
, чтобы увидеть, если вы можете добавить опцию schema
. Если нет, нет необходимости предоставлять схему.
При преобразовании из фрейма данных pyspark в фрейм данных pandas схема сохраняется. Не нужно ничего добавлять. Просто убедитесь, что у вас достаточно места в памяти.