Какие-нибудь рекомендации для маленькой, легкой, поисковой машины мешка слов?
У меня есть набор «документов», каждый из которых представляет собой небольшой пакет произвольных слов.
Получив новый документ, мне нужно получить список «похожих» документов с указанием их степени схожести. Документы, скорее всего, будут небольшими. Максимум пара абзацев.
- Стеблирование было бы неплохо, но не обязательно.
- Расширение слов с помощью сетей слов не требуется.
- предпочтительно с открытым исходным кодом или бесплатное программное обеспечение, так как это прототип, а не полномасштабный проект.
- предпочтительна платформа unix / linux.
Я бы использовал его в качестве подкомпонента и ожидал, что он будет только подавать документы с идентификатором, а затем будет выполнять поиск «похожих» документов на тот, который у меня есть в настоящее время.