Что может быть более эффективным способом справиться с этим?
Я отвечу в трех частях:
- Варианты уменьшения потребления памяти
- Минималистическая архитектура для безсерверных вычислений
- Как туда добраться
(I) Сокращение потребления памяти
Некоторыеобрабатывать большие объемы данных
Если вы обнаружите, что сценарии используют больше памяти, чем вы ожидаете, единственный способ уменьшить требования к памяти - это
- понять, какие частииспользование сценариями дискового пространства
- рефакторинг сценариев для использования меньшего объема памяти
Типичные проблемы, связанные с потреблением памяти:
при использованиинеправильная структура данных - например, если у вас есть числовые данные, обычно лучше загружать данные в массив Numpy, а не в массив Python.Если вы создаете много объектов пользовательских классов, это может помочь использовать __slots__
загрузка слишком большого количества данных в память за один раз - например, если обработка может быть разделена на несколько частей, независимых друг от друга, может быть более эффективно загружать столько данных, сколько необходимо для одной части, а затем использовать цикл для обработки всех частей.
содержат ссылки на объекты, которые больше не нужны - например, в процессе обработки вы создаете объекты для представления или обработки некоторой части данных.Если скрипт сохраняет ссылку на такой объект, он не будет выпущен до конца программы.Одним из способов решения этой проблемы является использование слабых ссылок , другим является использование del
для явного разыменования объектов.Иногда также полезно вызывать сборщик мусора .
с использованием автономного алгоритма при наличии онлайн-версии (для машинного обучения) -Например, некоторые из алгоритмов Scikit предоставляют версию для инкрементного обучения , например LinearRegression
=> SGDRegressior
или LogisticRegression
=> SGDClassifier
некоторые выполняют второстепенные задачи по обработке данных
Некоторые алгоритмы требуют большого объема памяти.Если использование онлайн-алгоритма для инкрементного обучения не является вариантом, следующая лучшая стратегия - использовать сервис, который взимает плату только за фактическое время вычислений / использование памяти.Это то, что обычно называют безсерверными вычислениями - вам не нужно самим управлять серверами (каплями).
Хорошей новостью является то, что в принципе поставщик, которого вы используете, Digital Ocean, предоставляет модель, которая взимает плату только за фактически использованные ресурсы.Однако на самом деле это не безсерверный процесс: ваша задача - создавать, запускать, останавливать и удалять капли, чтобы получить реальные выгоды.Если этот процесс полностью не автоматизирован, весёлый фактор немного низок; -)
(II) Минимальная архитектура для безсерверных вычислений
полностью выделенные 8 ГБКапля / 16B для моего нового скрипта звучит немного неэффективно и дорого
Поскольку ваши скрипты запускаются только по расписанию / по расписанию, ваша капля не должна запускаться или даже существовать постоянно.Таким образом, вы можете установить это следующим образом:
Создайте каплю планирования.Это может быть небольшого размера.Его единственная цель - запустить планировщик и создать новую каплю, когда должен быть выполнен сценарий, а затем отправить задачу для выполнения на этой новой рабочей капле.Рабочая капля может иметь определенный размер для размещения сценария, то есть каждый сценарий может иметь каплю любого требуемого размера.
Создание универсального работника.Это программа, которая запускается при создании новой капли планировщиком.В качестве входных данных он получает URL-адрес хранилища git, в котором хранится фактический скрипт, который нужно запустить, и место для хранения результатов.Затем он извлекает код из хранилища, запускает сценарии и сохраняет результаты.
Как только сценарий завершен, планировщик удаляет рабочую каплю.
При таком подходе для каждого сценария все еще есть полностью выделенные капли, но они стоят только денег, покаскрипт работает.
(III) Как туда добраться
Один из вариантов - построить архитектуру, как описано выше, которая, по сути, будет реализацией минималистической архитектуры для Безсерверные вычисления .Существует несколько библиотек Python для взаимодействия с Digital Ocean API .Вы также можете использовать libcloud
в качестве универсального облачного API для нескольких провайдеров, чтобы впоследствии было проще (более) переключать поставщиков.
Возможно, лучшая альтернатива, прежде чем создавать себя, - это оценитьодна из существующих опций с открытым исходным кодом .Хорошие ребята предоставили обширный список кураторов на awesome-serverless .Обратите внимание, что на момент написания этой статьи многие из проектов с открытым исходным кодом все еще находятся на ранних стадиях, более зрелые варианты являются коммерческими.
Как всегда с инженерными решениями, существует компромисс между временем /стоимость, необходимая для сборки или размещения самостоятельно, против стоимости использования легкодоступной коммерческой услуги.В конечном итоге это решение может принять только вы.