Амазонка Афина с большими gzip json файлами? - PullRequest
0 голосов
/ 25 февраля 2020

Я делаю свои первые шаги с Amazon Athena, и я не знаю, почему я не получаю ожидаемых результатов.

Я имею дело с большими json файлами, закодированными в gzip и сохраненными в s3, и я не могу получить результаты даже для простого запроса подсчета.

Теперь я тестирую с двумя файлами, каждый из которых содержит около 10 ГБ сжатых json. Когда я тестирую таблицу с пределом 10, я получаю результаты, поэтому таблица создается и работает, но когда мне нужно сделать другой запрос, даже с простым где, запрос никогда не заканчивается, я имею в виду, мне пришлось остановите его при достижении 30 минут без ответа.

Я читал о разделении данных, и я знаю, что большие файлы - не лучший вариант для хранения данных в s3, если вы хотите использовать Афину.

Несмотря на это, я немного искал в inte rnet и попал в какой-то тест, где люди запрашивают большие файлы (70-80 ГБ), получая результат примерно за 10 секунд.

Использование Athena кажется очень простым, но должно быть что-то, что я делаю неправильно в добавлении к неразделенным данным.

Не могли бы вы дать какие-либо советы, или нет решения для этой ситуации.

Спасибо

...