Question

У меня есть Pandas_UDF, и я использую PySpark. Теперь, насколько мне известно, когда я использую pandas_udf, spark поделит данные и распределит их по рабочим узлам. Затем данные будут преобразованы в пандас, который мы можем выполнить поверх.

Мне нравится создавать и сохранять текстовый файл (из входных данных) в рабочем хранилище, а затем копировать этот текстовый файл в хранилище озера данных Azure, поколение 2. Это возможно при использовании python а не spark ?

Я задаю этот вопрос, потому что я хочу сгенерировать некоторые двоичные файлы (точнее, tfrecords) и сохранить их в озере данных. Итак, я думаю, я не могу отправить tfrecords с рабочего узла на узел драйвера. Кроме того, я не хочу никакой связи между рабочими узлами и узлом драйвера. Так это возможно? Я хочу написать напрямую с рабочего узла в ADLS Gen 2 .

Любая помощь очень ценится !!

Как отправить данные из рабочего узла в озеро данных из функции Pandas_UDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как отправить данные из рабочего узла в озеро данных из функции Pandas_UDF?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы