Я вижу, есть ли смысл создавать отдельные классы для схем в pyspark (как модель в традиционной архитектуре MVC).
В конвейере много промежуточных результатов, и янемного параноидально о том, что ни один из них не проверен типом.Таким образом, выходные данные шагов 1, 2, 3 и т. Д. Хранятся на диске, но во время spark.write
ни одна из них на самом деле не проверяется (я предполагаю, что spark фактически выдаст ошибку, если сможетне пишите на диск).
Совершенно ли необходимо выполнять проверку типов для pyspark, и если да, то какой способ обработки будет лучшим?