Повышение производительности для создания Dashboard с использованием Tableau? - PullRequest
0 голосов
/ 06 декабря 2018

Мы планируем реализовать проект в облаке Azure, в котором хранилище данных будет озером данных Azure, а в будущем будет реализован HDP, а ADLS будет расширенной датоданной.Из ADLS мы хотим предоставить данные для создания Dashboard, используя Tableau.Первоначально планировалось использовать Hive, и Tableau будет подключаться к данным через Hive.Но здесь возникает проблема производительности:

  1. Будет несколько пользователей, которые будут иметь доступ к данным через Таблицу (100 +)

  2. Мытакже придется выставлять данные на другой портал с помощью вызовов API.

Это означает, что одновременно будет установлено несколько соединений, что приведет к появлению улья.Мой вопрос:

  1. Может ли улей служить цели с минимальным временем?

  2. Как я могу измерить производительность?

  3. Я не хочу позволять моим пользователям сидеть сложа руки после выполнения запроса в таблице и долго ждать, чтобы увидеть панель управления.

Не могли бы вы поделиться своимиопыт в этом вопросе дизайна?Должны ли мы использовать Hive или должны использовать некоторые другие инструменты, которые имеют более высокую производительность для работы с таблицами и хранилищем HDFS.Кто-то предложил мне использовать Azure SQL Server и подключить Tableau к SQL-серверу.Но это опять-таки старая мода, а также вопрос стоимости, так как цена связана с выполнением каждого запроса.

Если у вас есть какой-либо лучший опыт решения, пожалуйста, поделитесь, будет очень признателен.

Спасибозаранее.

1 Ответ

0 голосов
/ 07 декабря 2018

Hive LLAP может работать, если вы можете установить его.

В остальном, на моей работе у нас был хороший опыт использования PrestoDB и Tableau для данных S3.

Некоторые команды используют Spark SQL, и вы можете настроить Spark Thrift Server, что должно бытьсовместим с драйверами Hive JDBC / ODBC

...