Афина против Редшифт Спектрум - PullRequest
0 голосов
/ 09 мая 2018

Я как бы оцениваю Athena & Redshift Spectrum. Оба служат одной и той же цели, Spectrum нуждается в кластере Redshift, в то время как Athena полностью без сервера. Афина использует Presto, а Spectrum использует двигатель Redshift

Есть ли какие-либо специфические недостатки для спектра Афины или Redshift? Есть ли ограничения по использованию Athena или Spectrum?

Ответы [ 4 ]

0 голосов
/ 28 января 2019

Этот вопрос был с давних времен, но, тем не менее, я думаю, что могу внести свой вклад в обсуждение.

Что такое Афина?

Amazon Athena - это интерактивная служба запросов, которая позволяет легко анализировать данные в Amazon S3 с использованием стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для управления, и вы платите только за запросы, которые выполняете. (Из документа)

Довольно прямо, верно?

Затем возникает вопрос, что такое Redshift Spectrum и почему люди из Amazon сделали это, когда Афина была в значительной степени решением для запросов к внешним таблицам?

Итак, ребята из AWS хотели создать расширение для Redshift (которое сейчас довольно популярно в качестве управляемого столбчатого хранилища данных) и дать ему возможность общаться с внешними таблицами (обычно S3). Но они хотели облегчить жизнь пользователям Redshift, в основном аналитикам. Многие аналитические инструменты не поддерживают Athena, но поддерживают Redshift в настоящее время. Но создание кластера Reshift и хранение данных были узким местом. Опять же, Redshift не настолько масштабируем по горизонтали, и он требует некоторого времени простоя в случае добавления новых машин. Если вы являетесь пользователем Redshift, то удешевление хранилища существенно упростит вашу жизнь.

Я предлагаю вам использовать спектр красного смещения в следующих случаях:

  • Вы являетесь пользователем Redshift и хотите сохранить больше данных в Redshift.

  • Вы хотите переместить более холодные данные во внешнюю таблицу, но все же в некоторых случаях хотите объединиться с таблицами Redshift.

  • Искренняя выгрузка ваших данных, и если вы просто хотите импортировать данные в Pandas или любые другие инструменты для анализа.

И Афина может быть полезна, когда:

  • Вы новый пользователь и у вас нет кластера Redshift. Для доступа к Spectrum требуется активный работающий экземпляр Redshift. Так что Redshift Spectrum - это не вариант без Redshift.
  • Спектр все еще является развивающимся инструментом, и они как бы добавляют некоторые функции, такие как Транзакции, чтобы сделать его более эффективным.
  • Кстати, Athena поставляется с прекрасным REST API , так что дерзайте, если хотите.

Скажем так, спектр Redshift + Redshift действительно мощный с большим количеством обещаний. Но до зрелости еще далеко.

0 голосов
/ 09 мая 2018

Одно большое ограничение и отличительный фактор - это возможность использовать структурированные данные. Athena поддерживает его для форматов файлов JSON и Parquet, тогда как Redshift Spectrum принимает только плоские данные.

Другим является доступность функций ГИС, которые есть у Афины, а также лямбда, которые иногда оказываются полезными.

Теперь, если вы запустили автономный новый Postgres, тогда он делает все и даже больше, но что касается сравнения между Redshift (и Spectrum) - это инструмент, который прекратил развиваться.

0 голосов
/ 15 мая 2018

Если вы используете базу данных Redshift, тогда будет разумно использовать Spectrum вместе с красным смещением для получения требуемой производительности.

Однако, если вы начинаете изучать варианты, тогда мы можем рассматривать Афину как инструмент для продвижения вперед.

0 голосов
/ 09 мая 2018

Я использовал оба в нескольких различных случаях использования и пришел к выводу:

Преимущества Redshift Spectrum:

  • Позволяет создавать таблицы Redshift
  • Возможность объединения таблиц Redshift с таблицами спектра Redshift. эффективно

Если вам не нужны эти вещи, вам следует подумать и об Афине

Отличия Афины от спектра красного смещения:

  • Billing. Это основное отличие и в зависимости от вашего варианта использования Вы можете найти один намного дешевле, чем другой
  • Производительность. Я нашел Афину немного быстрее.
  • Синтаксис и функции SQL. Афина происходит от Presto и немного отличается от Redshift, который имеет свои корни в postgres.
  • Connectivity. Достаточно просто подключиться к Афине с помощью API, JDBC или ODBC, но многие другие продукты предлагают «стандартные из коробки» подключение к Redshift

Кроме того, для любого решения убедитесь, что вы используете метаданные AWS Glue, а не Athena, поскольку существует меньше ограничений.

...