Как применить эластичный поиск с помощью Python для файлов в Azure-Data-Lake? - PullRequest
0 голосов
/ 17 октября 2019

Я загрузил файлы в лазурное озеро данных с помощью python в gen1. Те файлы, которые существуют в Azure Data Lake, мне нужно применить эластичный поиск к этим файлам (файлы могут быть .pdf, .csv, .xlsx, .doc.), Используя python django.

1 Ответ

0 голосов
/ 22 октября 2019

Эта статья помогает индексировать и запрашивать большие объемы структурированных данных путем объединения ADLS и Elasticsearch с использованием стороннего инструмента под названием Dremio.

О Dremio: Dremio обеспечивает семантический уровень самообслуживания и управление вашими данными. Семантический слой Dremio - это интегрированный каталог с возможностью поиска в графе данных, который индексирует все ваши метаданные, что позволяет бизнес-пользователям легко разобраться в данных в озере данных. Все, что создается пользователями - пространства, каталоги и виртуальные наборы данных составляют семантический слой, который индексируется и доступен для поиска. Отношения между вашими источниками данных, виртуальными наборами данных и всеми вашими запросами также поддерживаются в графе данных, создавая линию данных, позволяя вам управлять и поддерживать ваши данные.

Azure Data Lake Store обладает высокой масштабируемостьюи безопасное хранилище данных и сервис аналитики, который легко справляется с проблемами больших данных. Он предоставляет множество функций и решений для управления данными и управления ими.

Elasticsearch - мощный поисковый и аналитический движок. Он очень популярен благодаря масштабируемой архитектуре, модели данных JSON и возможностям текстового поиска. Кроме того, с помощью Elasticsearch вы можете индексировать и запрашивать большие объемы структурированных данных, использовать удобный RESTful API и т. Д.

Надеюсь, это поможет.

...