Импорт данных TensorFlow из pyspark - PullRequest
0 голосов
/ 30 апреля 2018

Я хочу создать прогностическую модель для нескольких сотен гигабайт данных. Данные нуждаются в неинтенсивной предварительной обработке, которую я могу выполнять в pyspark, но не в тензорном потоке. В моей ситуации было бы гораздо удобнее напрямую передать результат предварительной обработки в TF, в идеале обрабатывая фрейм данных pyspark как виртуальный входной файл в TF, вместо сохранения предварительно обработанных данных на диск. Однако у меня нет ни малейшего представления, как это сделать, и я нигде не мог найти в Интернете.


После некоторых размышлений мне кажется, что мне действительно нужен итератор (как определено tf.data.Iterator) для данных спарк. Тем не менее, я нашел в Интернете комментарии, которые намекают на то, что распределенная структура искры делает ее очень сложной, если не невозможной. Почему так? Представьте, что меня не волнует порядок строк, почему нельзя делать итерации по данным искры?

1 Ответ

0 голосов
/ 04 мая 2018

Звучит так, как будто вы просто хотите использовать tf.data.Dataset.from_generator(), вы определяете генератор питона, который считывает сэмплы из искры. Хотя я не очень хорошо знаю Spark, я уверен, что вы можете уменьшить сервер, который будет работать с моделью tenorflow. А еще лучше, если вы распространяете свое обучение, вы можете сократить количество серверов, которым требуется некоторая часть вашего окончательного набора данных.

Руководство по программированию импорта данных более подробно описывает входной конвейер Dataset. Тензор потока Dataset предоставит вам итератор, к которому напрямую обращается граф, поэтому вам не нужно tf.placeholders или маршалинг данных вне кода, который вы пишете tf.data.Dataset.from_generator().

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...