У меня есть следующий вариант использования для создания озера данных (например, в Azure):
Моя организация имеет дело с компаниями, которые go обанкротились. Как только компания обанкротится, она должна передать нам все свои данные, включая структурированные данные (например, CSV), а также полуструктурированные и неструктурированные данные (например, PDF, документы Word, изображения, JSON, файлы .txt). и др c.). В этом случае поможет наличие озера данных, поскольку объемы данных могут быть большими и непредсказуемыми, а Azure озеро данных выглядит как относительно недорогое и масштабируемое решение для хранения данных.
Однако помимо хранения всех этих данных нам также необходимо предоставить бизнес-пользователям инструмент, который позволит им осуществлять поиск по всем этим данным. Я могу представить себе два типа поиска:
- поиск определенных c файлов (используя имена файлов или часть имен файлов в качестве критериев поиска)
- поиск по всем текстовым файлам (слово документы, .txt и PDF) и определение тех файлов, которые соответствуют критериям поиска (например, конкретная c искомая фраза)
Существуют ли какие-либо готовые инструменты, которые могут использовать Azure Озеро данных как источник данных, который позволит пользователям выполнять такие поиски?