Я работаю с инструментом, написанным на scala и python, который называется web2text .Мой набор данных очень большой (~ 100T), и мне нужно использовать Spark на YARN для его обработки.До сих пор мне удалось запустить этот инструмент локально на Spark с помощью PipeRDD.Единственное, что я не могу обернуть вокруг себя, это как включить предварительно обученную модель TF (контрольные файлы, тензорный поток как библиотека и т. Д.) Таким образом, чтобы она была доступна для всех узлов.
Я работаю с ограничениями, которые не могут установить новое программное обеспечение на узлы кластера.Если бы это было не так, я полагаю, что эта проблема уже была бы решена.
Есть ли способ развертывания, такой как fat jar, который содержит всю эту информацию.Если бы я мог заключить это в контейнер, я думаю, что это сработало бы, но, похоже, нет никакого очевидного пути.
Могу ли я переписать модель тензорного потока таким образом, чтобы она просто принимала строку, классифицировала ее и возвращала меткив одном .py файле?