Запросы через S3 ведра с помощью Athena - PullRequest
0 голосов
/ 11 июля 2019

Я пытаюсь понять Data Lakes, и большинство примеров показывают только простые варианты использования. Что я хочу понять, так это «объединить запросы».

Например, у меня есть файлы с данными о продукте (загружены в S3-Product-Data) и база данных с годовыми продажами продукта (загружены в S3-Product-Sales). Как AWS Lakes / Athena делает запрос, который выполняется в этих двух средах?

Конечно, что-то нужно будет связать их. Я просто не уверен, как будет выглядеть запрос, и что Афина делает под прикрытием, чтобы объединить данные (и быть производительной).

1 Ответ

0 голосов
/ 12 июля 2019

Что вы делаете, это создаете таблицу в Афине, которая ссылается на файлы с данными о продукте, и другую таблицу, которая ссылается на файлы с годовым объемом продаж.После этого вы можете запустить SQL, который объединяет таблицы.

Точно, как будет выглядеть SQL, зависит от ваших данных, столбцов и т. Д. Если данные вашего продукта имеют столбец product_id и ваши данные о продажахтоже, вы можете присоединиться к ним, как это (имена столбцов, конечно, все составлены):

SELECT product_name, SUM(sales.sold_for) AS total_revenue
FROM products
LEFT JOIN sales USING (product_id)
...