Большой файл CSV с Tableau Desktop - PullRequest
       9

Большой файл CSV с Tableau Desktop

0 голосов
/ 24 сентября 2018

У меня есть CSV-файл объемом 100 ГБ (200 миллионов строк X 60 столбцов), который я использую для создания сводных панелей в Tableau Desktop с помощью извлечения.У меня возникла проблема с производительностью, и обновление панели управления занимает около 2 минут, когда я выбираю / отменяю выбор любого из фильтров измерений.Может ли использование Tableau Server решить эту проблему?Если да, сколько узлов я должен настроить и какую конфигурацию для каждого из них?

Может ли это быть проблемой с настройками кэша?

Я также думал о том, чтобы поместить эти данные встолбцовую базу данных, такую ​​как Redshift, а затем использовать живое соединение, так что вместо Tableau используется механизм запросов Redshift.Это перебор для такого небольшого набора данных?

1 Ответ

0 голосов
/ 24 сентября 2018

Redshift или Афина будет хорошо работать для этого.

Redshift будет прост в настройке и будет стоить около 250 долларов в месяц для одного узла.вам нужно настроить таблицу красных смещений, чтобы получить разумную производительность.

AWS Athena может быть хорошим способом получить хорошую производительность по разумной цене

Простое решение Athena:

  1. Распакуйте ваш CSV-файл, разбейте его на куски размером около 10 МБ
  2. , загрузите его в корзину s3
  3. запустите сканер склеивания aws с этим контейнером
  4. направьте рабочий стол вашей таблицы натаблица athena, которая сейчас там.

Допустим, ваш gzip-файл имеет размер 25 ГБ, каждый запрос будет стоить вам $ 0,13 с очень небольшими другими затратами.

Если это слишком много (посколькуесли вы хотите выполнить много запросов), то вы можете сократить расходы и повысить производительность путем

  • , разбивая ваши данные на папки s3
  • , конвертируя ваши данные в формат паркета
...