Я пытаюсь создать поисковую систему, которая давала бы ссылки на документы, которые наиболее релевантны в соответствии с поиском.Так как, возможно, что ключевое слово поиска может встречаться несколько раз в нескольких документах, результатом должны быть самые релевантные ссылки документов, скажем, топ 5.
1) Могу ли я использовать Solr дляэто?Как бы я проиндексировал документы в этом случае, и будет ли он обрабатывать наиболее релевантную часть?
2) Должен ли я использовать NLP для такого типа кластеризации ключевых слов по косинусному расстоянию?Я открыт для любых предложений в части машинного обучения.Какой будет лучший подход?
Спасибо!