Question

Мне нужно идентифицировать (текстовые) документы, хранящиеся в mssql 2017, которые содержат слова, принадлежащие списку (список содержит 6 миллионов слов из разных языков), и я хотел бы воспользоваться преимуществом полнотекстового разрыва слова / леммингаindexing

Первая попытка состояла в том, чтобы использовать тезаурус, в котором слова 6M были синонимами друг друга ... но мой список слишком велик ... и расширение запроса при использовании содержит FORMSOF ... потребляет слишком многопамять (ошибка, когда запрос памяти превышает 30 ГБ ... lol)

Сейчас я рассматриваю вопрос о том, чтобы написать свой собственный инструмент разбиения по словам / парадигматическому модулю, который использовал бы стоп-лист в качестве белого списка.Таким образом, я бы только индексировал документы, содержащие слова из списка ... Я начал гуглить, но я продолжаю находить только документы, относящиеся к старым версиям mssql ... другими словами, ЛЮБАЯ помощь в том, как кодировать вc # средство разбиения по словам / парадигматический модуль .... iFilter, когда я прочитал, что iFilter может помечать документы (но больше ничего не нашел)

Как написать IFilter для полнотекстовых индексов mssql 2017, которые содержат теги, содержащие слова из списка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как написать IFilter для полнотекстовых индексов mssql 2017, которые содержат теги, содержащие слова из списка?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы