Учитывая доступные методы для указания пользовательских функций в PySpark:
- Нестандартные пользовательские функции PySpark
- Панды UDF, использующие Apache Arrow
Как можно создать и запустить на фрейме данных пользовательскую функцию, которая ничего не возвращает, не создавая новый столбец?
Пример: скажем, вы хотели распараллелить загрузку столбца данных в какое-то внешнее хранилище сохраняемости. То есть вместо записи всего кадра данных в HDFS, используйте одно поле в качестве ключа, а другое - в качестве значения для передачи построчно в хранилище BLOB-объектов, например s3.