Мне нужно идентифицировать (текстовые) документы, хранящиеся в mssql 2017, которые содержат слова, принадлежащие списку (список содержит 6 миллионов слов из разных языков), и я хотел бы воспользоваться преимуществом полнотекстового разрыва слова / леммингаindexing
Первая попытка состояла в том, чтобы использовать тезаурус, в котором слова 6M были синонимами друг друга ... но мой список слишком велик ... и расширение запроса при использовании содержит FORMSOF ... потребляет слишком многопамять (ошибка, когда запрос памяти превышает 30 ГБ ... lol)
Сейчас я рассматриваю вопрос о том, чтобы написать свой собственный инструмент разбиения по словам / парадигматическому модулю, который использовал бы стоп-лист в качестве белого списка.Таким образом, я бы только индексировал документы, содержащие слова из списка ... Я начал гуглить, но я продолжаю находить только документы, относящиеся к старым версиям mssql ... другими словами, ЛЮБАЯ помощь в том, как кодировать вc # средство разбиения по словам / парадигматический модуль .... iFilter, когда я прочитал, что iFilter может помечать документы (но больше ничего не нашел)