У меня есть около 100 миллионов файлов json (10 ТБ), каждое из которых содержит определенное поле, содержащее кучу текста, для которого я хотел бы выполнить простой поиск по подстроке и вернуть имена файлов всех соответствующих файлов json.Все они в настоящее время хранятся в облачном хранилище Google.Обычно для меньшего количества файлов я мог бы просто раскрутить виртуальную машину со многими процессорами и запустить многопроцессорную работу через Python, но, увы, это слишком много.
Я хочу не тратить слишком много времени на настройку инфраструктуры, напримерсервер Hadoop или загрузка всего этого в некоторую базу данных MongoDB.Мой вопрос: что было бы быстрым и грязным способом выполнить эту задачу?Мои первоначальные мысли заключались в том, чтобы настроить что-то в Kubernetes с помощью некоторой параллельной обработки, выполняющей скрипты Python, но я открыт для предложений и на самом деле не знаю, как это сделать.