Как настроить инфраструктуру GCP для быстрого поиска по массиву данных JSON? - PullRequest
0 голосов
/ 20 сентября 2018

У меня есть около 100 миллионов файлов json (10 ТБ), каждое из которых содержит определенное поле, содержащее кучу текста, для которого я хотел бы выполнить простой поиск по подстроке и вернуть имена файлов всех соответствующих файлов json.Все они в настоящее время хранятся в облачном хранилище Google.Обычно для меньшего количества файлов я мог бы просто раскрутить виртуальную машину со многими процессорами и запустить многопроцессорную работу через Python, но, увы, это слишком много.

Я хочу не тратить слишком много времени на настройку инфраструктуры, напримерсервер Hadoop или загрузка всего этого в некоторую базу данных MongoDB.Мой вопрос: что было бы быстрым и грязным способом выполнить эту задачу?Мои первоначальные мысли заключались в том, чтобы настроить что-то в Kubernetes с помощью некоторой параллельной обработки, выполняющей скрипты Python, но я открыт для предложений и на самом деле не знаю, как это сделать.

1 Ответ

0 голосов
/ 20 сентября 2018
  1. Проще было бы просто загрузить данные GCS в Большой запрос и просто выполнить свой запрос оттуда.

  2. Отправьте свои данные на AWS S3 и используйте Amazon Athena .

  3. Для параметра Kubernetes будет настроен кластерв GKE и установите Presto в нем с большим количеством работников, используйте метасторье hive с GCS и запросите оттуда.(Presto еще не имеет прямого разъема GCS, afaik) - эта опция кажется более сложной.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...