У меня есть конвейер GCP ML, в котором после сохранения файла .csv в облачном хранилище мне необходимо предварительно обработать (в основном операции pandas) .csv и затем передать его в облачную AI-платформу для обучения.
Если я выполняю эту предварительную обработку в AI-Platform (отдельное учебное задание, включающее в себя как предварительное, так и модельное обучение), с этим уходит много времени, не знаю почему, в журналах ничего для этого не указанозадержка, но обучающая часть довольно быстро работает в ai-платформе.
Разве мы не предполагаем выполнять предварительную обработку данных в ai-platform / ml-engine?
Я пытался использовать облачную функцию дляпредварительная обработка, но время ожидания составляет 540 секунд, и для нас это является узким местом. Кроме того, я не уверен, что облачный поток данных лучше всего подходит для этого варианта использования.
В основном мне нужно выполнить некоторую предварительную обработку Python-панд перед передачей данных для ai-платформы. Не могли бы вы предложить какой-либо продукт Google-Cloud-платформы для того же?
Я знаю, что мы можем создать экземпляр GCE и делать все там, но мы не хотим использовать любой сервис IaaS, а больше Paas изGCP для масштабирования позже.