Как написать IFilter для полнотекстовых индексов mssql 2017, которые содержат теги, содержащие слова из списка? - PullRequest
0 голосов
/ 14 мая 2019

Мне нужно идентифицировать (текстовые) документы, хранящиеся в mssql 2017, которые содержат слова, принадлежащие списку (список содержит 6 миллионов слов из разных языков), и я хотел бы воспользоваться преимуществом полнотекстового разрыва слова / леммингаindexing

Первая попытка состояла в том, чтобы использовать тезаурус, в котором слова 6M были синонимами друг друга ... но мой список слишком велик ... и расширение запроса при использовании содержит FORMSOF ... потребляет слишком многопамять (ошибка, когда запрос памяти превышает 30 ГБ ... lol)

Сейчас я рассматриваю вопрос о том, чтобы написать свой собственный инструмент разбиения по словам / парадигматическому модулю, который использовал бы стоп-лист в качестве белого списка.Таким образом, я бы только индексировал документы, содержащие слова из списка ... Я начал гуглить, но я продолжаю находить только документы, относящиеся к старым версиям mssql ... другими словами, ЛЮБАЯ помощь в том, как кодировать вc # средство разбиения по словам / парадигматический модуль .... iFilter, когда я прочитал, что iFilter может помечать документы (но больше ничего не нашел)

...