Spark-Job, содержащий PipeRDD для классификатора python с TensorFlow - PullRequest
0 голосов
/ 14 июня 2019

Я работаю с инструментом, написанным на scala и python, который называется web2text .Мой набор данных очень большой (~ 100T), и мне нужно использовать Spark на YARN для его обработки.До сих пор мне удалось запустить этот инструмент локально на Spark с помощью PipeRDD.Единственное, что я не могу обернуть вокруг себя, это как включить предварительно обученную модель TF (контрольные файлы, тензорный поток как библиотека и т. Д.) Таким образом, чтобы она была доступна для всех узлов.

Я работаю с ограничениями, которые не могут установить новое программное обеспечение на узлы кластера.Если бы это было не так, я полагаю, что эта проблема уже была бы решена.

Есть ли способ развертывания, такой как fat jar, который содержит всю эту информацию.Если бы я мог заключить это в контейнер, я думаю, что это сработало бы, но, похоже, нет никакого очевидного пути.

Могу ли я переписать модель тензорного потока таким образом, чтобы она просто принимала строку, классифицировала ее и возвращала меткив одном .py файле?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...