Я хочу создать прогностическую модель для нескольких сотен гигабайт данных. Данные нуждаются в неинтенсивной предварительной обработке, которую я могу выполнять в pyspark, но не в тензорном потоке. В моей ситуации было бы гораздо удобнее напрямую передать результат предварительной обработки в TF, в идеале обрабатывая фрейм данных pyspark как виртуальный входной файл в TF, вместо сохранения предварительно обработанных данных на диск. Однако у меня нет ни малейшего представления, как это сделать, и я нигде не мог найти в Интернете.
После некоторых размышлений мне кажется, что мне действительно нужен итератор (как определено tf.data.Iterator
) для данных спарк. Тем не менее, я нашел в Интернете комментарии, которые намекают на то, что распределенная структура искры делает ее очень сложной, если не невозможной. Почему так? Представьте, что меня не волнует порядок строк, почему нельзя делать итерации по данным искры?