Можно ли сделать простейшие параллельные запросы SQL для файла S3 с разбиением на части?
Проблема выглядит так, как будто вы должны выбрать 2 варианта из 3.
Вы можете выполнять параллельные SQL-запросы к S3 с помощью S3 Select. Но S3 Select не поддерживает разбиение, он также работает с одним файлом за раз.
Athena поддерживает разделение и запросы SQL, но имеет ограничение в 20 одновременных запросов. Лимит может быть увеличен, но нет гарантий и восходящей линии.
Вы можете настроить HBase, который работает на S3 через EMRFS, но для этого требуется много конфигураций. И я полагаю, что данные должны быть записаны через HBase (другой формат). Может быть, более простое решение?