Простой вопрос о том, как Tableau Desktop общается с очень большой базой данных - PullRequest
0 голосов
/ 20 января 2019

Мне просто любопытно, как Tableau общается с большим источником данных - например, если у меня есть источник данных, содержащий 1,4 миллиона записей, и я делаю простую таблицу с этими данными, может быть, график и т. Д., То как таблица получает эти данные? Идет ли он к источнику данных, запрашивает у источника данных, сколько у него есть, затем извлекает первые 10000, возвращается ли он и получает ли следующие 10 тысяч и т. Д.? или он делает это за один раз? Также я хочу знать, где Tableau хранит эти данные, которые он получает?

Надеюсь, мой вопрос имеет смысл - просто пытаюсь понять основные механизмы. Спасибо!

1 Ответ

0 голосов
/ 30 января 2019

Tableau может работать с внешними источниками данных несколькими способами. Вы можете извлечь весь контент БД в локальный файл (называемый экстрактом) или иметь прямое соединение с базой данных.

Если соединение является действующим, то Tableau отправляет запросы к БД, предназначенные для возврата нужных вам данных, а не всего содержимого БД. Поэтому, если у вас есть 1,4 млн записей, содержащих, скажем, информацию о продажах за полный год, и вы хотите получать ежемесячные итоги, Tableau отправит запрос с просьбой к БД вернуть месячные итоги. Это приведет к тому, что в Tableau будет возвращено всего 12 номеров: сама БД выполнит эту работу, и Tableau не нужно будет набирать номера 1.4m и складывать их. Вот как работает большинство источников данных: пользователь запрашивает результат (используя запросы SQL), а БД решает, как вернуть этот результат. Это означает, что вам не нужно копировать всю базу данных каждый раз, когда вы хотите добавить несколько цифр.

Живые запросы не будут выборкой базы данных: обычно вы получите правильные итоги (хотя некоторые источники, такие как Google BigQuery, будут использовать выборку для некоторых статистических агрегатов, если не указано иное).

Как Tableau, так и многие базы данных будут кэшировать результаты недавно выполненных запросов, поэтому результаты будут быстрее. Результаты таблицы будут проводиться локально.

...