Question

У меня есть около 100 миллионов файлов json (10 ТБ), каждое из которых содержит определенное поле, содержащее кучу текста, для которого я хотел бы выполнить простой поиск по подстроке и вернуть имена файлов всех соответствующих файлов json.Все они в настоящее время хранятся в облачном хранилище Google.Обычно для меньшего количества файлов я мог бы просто раскрутить виртуальную машину со многими процессорами и запустить многопроцессорную работу через Python, но, увы, это слишком много.

Я хочу не тратить слишком много времени на настройку инфраструктуры, напримерсервер Hadoop или загрузка всего этого в некоторую базу данных MongoDB.Мой вопрос: что было бы быстрым и грязным способом выполнить эту задачу?Мои первоначальные мысли заключались в том, чтобы настроить что-то в Kubernetes с помощью некоторой параллельной обработки, выполняющей скрипты Python, но я открыт для предложений и на самом деле не знаю, как это сделать.

Rico · Answer 1 · 20 сентября 2018

Проще было бы просто загрузить данные GCS в Большой запрос и просто выполнить свой запрос оттуда.
Отправьте свои данные на AWS S3 и используйте Amazon Athena .
Для параметра Kubernetes будет настроен кластерв GKE и установите Presto в нем с большим количеством работников, используйте метасторье hive с GCS и запросите оттуда.(Presto еще не имеет прямого разъема GCS, afaik) - эта опция кажется более сложной.

Надеюсь, это поможет!

Как настроить инфраструктуру GCP для быстрого поиска по массиву данных JSON?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как настроить инфраструктуру GCP для быстрого поиска по массиву данных JSON?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов