Этот вопрос касается того, какой должна быть подходящая архитектура на Google Cloud Platform для моего конкретного случая использования.
У меня есть набор файлов .yaml
, для которых я хотел бы выполнить запросы SQL при использовании Google Cloud Platformтовары.Общий размер этих файлов не будет превышать 30 МБ, а каждый файл будет в среднем около 50 КБ.Новые файлы также не будут добавляться очень часто - примерно 2-3 раза в год.
Я думал, что смогу спроектировать архитектуру, в которой все эти файлы будут сохранены в облачном хранилище, я запустил конвейер потока данных / облачные функции, чтобы преобразовать эти .yaml
файлы в .json
, а затем импортировать их в BigQuery длязапускать SQL-запросы.
Какой подход кажется подходящим?Использование Dataflow или облачных функций для предварительной обработки или чего-то еще целиком?
Мне тоже удобно с Python, поэтому я бы искал решение, которое бы включало это.Например, Dataflow имеет Python SDK.