Поиск по данным, хранящимся в Azure Data Lake - PullRequest
0 голосов
/ 07 января 2020

У меня есть следующий вариант использования для создания озера данных (например, в Azure):

Моя организация имеет дело с компаниями, которые go обанкротились. Как только компания обанкротится, она должна передать нам все свои данные, включая структурированные данные (например, CSV), а также полуструктурированные и неструктурированные данные (например, PDF, документы Word, изображения, JSON, файлы .txt). и др c.). В этом случае поможет наличие озера данных, поскольку объемы данных могут быть большими и непредсказуемыми, а Azure озеро данных выглядит как относительно недорогое и масштабируемое решение для хранения данных.

Однако помимо хранения всех этих данных нам также необходимо предоставить бизнес-пользователям инструмент, который позволит им осуществлять поиск по всем этим данным. Я могу представить себе два типа поиска:

  • поиск определенных c файлов (используя имена файлов или часть имен файлов в качестве критериев поиска)
  • поиск по всем текстовым файлам (слово документы, .txt и PDF) и определение тех файлов, которые соответствуют критериям поиска (например, конкретная c искомая фраза)

Существуют ли какие-либо готовые инструменты, которые могут использовать Azure Озеро данных как источник данных, который позволит пользователям выполнять такие поиски?

Ответы [ 2 ]

0 голосов
/ 15 февраля 2020

Cognitive Search с Azure Data Lake, безусловно, является опцией, и она рекомендует Microsoft. Несколько факторов, которые мы должны учитывать:

  1. Цена. https://azure.microsoft.com/en-us/pricing/details/search/. Не дешевый вариант.
  2. Размер ваших исходных данных и индекса, который вам нужен.
  3. Ваше признание других сервисов с открытым исходным кодом. ELK - это популярная платформа с открытым исходным кодом для полнотекстового поиска.
0 голосов
/ 08 января 2020

К сожалению, пока нет инструмента, который мог бы помочь вам отфильтровать файлы непосредственно в озере данных.

Даже Azure Storage Explorer поддерживает поиск только по префиксу.

Фабрика данных Мы поддерживаем фильтрацию файлов, но обычно она используется для копирования и передачи данных. Справка: Фабрика данных поддерживает фильтры файлов подстановочных знаков для операции копирования

Обновление:

Azure Познавательный поиск , кажется, быть хорошим выбором.

Cognitive Search поддерживает источник импорта из озера данных и предоставляет фильтр для поиска файлов.

Фильтр предоставляет критерии для выбора документов, используемых в Azure Когнитивный поисковый запрос. Нефильтрованный поиск включает в себя все документы в индексе. Фильтр помещает поисковый запрос в подмножество документов.

Мы можем ссылаться на Фильтры в Azure Когнитивный поиск

Надеюсь, это поможет.

...