Я ищу предложения по использованию распределенной системы для обработки этих данных. У меня есть данные с компьютеров всей организации (ноутбуки, настольные компьютеры, планшеты и т. Д.). Пример таблицы содержит данные для всех файлов, присутствующих на каждом компьютере в этой организации. Идея состоит в том, чтобы найти файлы с определенными ключевыми словами (3000+) в FileName или FilePath, то есть совпадении шаблонов шаблонов.
+-------------+----------+----------+----------+----------+
| MachineName | FileName | FilePath | FileType | FileSize |
+-------------+----------+----------+----------+----------+
Текущее решение работает на мощном SQL Server, но все еще занимает несколько часов, чтобы просмотреть 80 миллионов записей из-за подстановочных запросов SQL, например, FILENAME LIKE "% abc%" или FILEPATH LIKE "% abc%", и этот список можно продолжить .
Мы думали об индексах FullText в SQL, но это действие выполняется один раз в месяц, а затем данные отбрасываются. Таким образом, инвестирование ресурсов в заполнение полнотекстового индекса не кажется оправданным с точки зрения времени и ресурсов.
Требуется завершить эту деятельность в более короткие сроки, и поэтому мы ищем варианты.
Должно ли это быть ElasticSearch или Solr или какое-либо другое облачное решение? Пожалуйста, сообщите о каком-либо высокоуровневом решении.