У меня есть Pandas_UDF
, и я использую PySpark
. Теперь, насколько мне известно, когда я использую pandas_udf
, spark поделит данные и распределит их по рабочим узлам. Затем данные будут преобразованы в пандас, который мы можем выполнить поверх.
Мне нравится создавать и сохранять текстовый файл (из входных данных) в рабочем хранилище, а затем копировать этот текстовый файл в хранилище озера данных Azure, поколение 2. Это возможно при использовании python а не spark ?
Я задаю этот вопрос, потому что я хочу сгенерировать некоторые двоичные файлы (точнее, tfrecords) и сохранить их в озере данных. Итак, я думаю, я не могу отправить tfrecords с рабочего узла на узел драйвера. Кроме того, я не хочу никакой связи между рабочими узлами и узлом драйвера. Так это возможно? Я хочу написать напрямую с рабочего узла в ADLS Gen 2 .
Любая помощь очень ценится !!