Внедрить большой локальный файл JSON в друида - PullRequest
0 голосов
/ 31 октября 2019

Это мой первый опыт друида.

У меня есть локальная установка Druid на локальной машине. Теперь я хотел бы сделать тест производительности запросов. Мои тестовые данные - это огромный локальный файл json 1.2G. Идея заключалась в том, чтобы загрузить его в друид и запустить необходимый запрос SQL. Файл анализируется и успешно обрабатывается (я использую веб-интерфейс Druid для отправки задачи внедрения).

Проблема, с которой я сталкиваюсь, заключается в размере источника данных. Не имеет смысла, что 1,2G необработанных данных JSON приводят к 35M источника данных. Есть ли какие-либо ограничения в локальной настройке Druid? Я думаю, что тестовые данные обрабатываются частично. К сожалению, не нашел соответствующих настроек для его изменения. Буду признателен, если кто-то сможет пролить свет на это.

Заранее спасибо

1 Ответ

1 голос
/ 04 ноября 2019

С друидом ожидается сжатие на 80-90 процентов. Я видел, что файл CSV размером 2 ГБ уменьшен до 200 МБ. Данные друида.

Можете ли вы запросить счетчик, чтобы убедиться, что все данные загружены? Все, пожалуйста, отключите приблизительный алгоритм hyper-log-log, чтобы получить точное количество. Друид SQL переключится на точное различное число, если вы установите для «useApproximateCountDistinct» значение «false», либо через контекст запроса, либо через конфигурацию брокера (см. * 1004). *)

Также можно проверить журналы на наличие исключений и сообщений об ошибках. Если возникает проблема с получением конкретной JSON-записи, она пропускает эту запись.

...