Получить процент совпадения различий для документа по всему хранилищу (C #) - PullRequest
0 голосов
/ 12 декабря 2018

У меня есть хранилище документов, скажем, в формате txt.

Когда я добавляю новый документ в хранилище, я хочу проверить, существует ли в хранилище существующий документ, который совпадает с тем, который я вставляю.

Если совпадение превышает X% (90%?), Я могу спросить пользователя, хотят ли они продолжить или обновить существующий документ.Есть способы получить процент различий, например: в этом вопросе

Но мне нужно сравнить новый документ со всеми документами в хранилище.

Кто-нибудь знает, как я могу очень быстро проверить весь репозиторий, чтобы пользователю не пришлось ждать?

Спасибо

1 Ответ

0 голосов
/ 12 декабря 2018

Если вы векторизуете свои документы, используя методы предложения к вектору (используя скипграмму или COBW в быстром тексте), то вы можете индексировать векторы, используя индекс HNSw в быстром тексте, чтобы быстро найти документы, аналогичные документу запроса в хранилище.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...