У меня есть большой набор файлов журналов истории на aws s3, которые насчитывают миллиарды строк,
Я использовал сканер клея с десериализатором grok для генерации внешней таблицы в Афине, но его запрос оказалсябыть невыполнимым
Мои запросы истекли, и я пытаюсь найти другой способ обработки этих данных.
Из того, что я понимаю, через Афину внешние таблицы не являются реальными таблицами базы данных, а представляют собой представленияданных в файлах, и запросы выполняются по самим файлам, а не по таблицам базы данных.
Как превратить этот большой набор данных в структуру, удобную для запросов?
Редактировать 1: Дляразъяснение, я не заинтересован в изменении формы файлов журнала, о которых заботятся.Скорее я хочу способ работать с текущей файловой базой у меня на s3.Мне нужно запросить эти старые журналы и в его текущем состоянии это невозможно.Я ищу способ конвертировать эти файлы в оптимальный формат или использовать текущую внешнюю таблицу для выполнения моих запросов.
Прямо сейчас, по умолчанию для сканера, внешние таблицы разделены только по дням и экземплярам, мой шаблон grok разбивает отформатированные журналы на еще пару столбцов, которые я хотел бы перераспределить, если это возможно, что,Я полагаю, это облегчит выполнение моих запросов.