Я новичок в Python и кластеризации, я пытаюсь найти близость 2 элементов на основе характеристик, которые они имеют в своем описании, т. Е. Классическая проблема поиска документов.
В фрейме данных, который я использую,У меня есть 2 поля, идентификатор и описание, и этот фрейм данных содержит ~ 1000 записей для различных элементов.
Что сейчас нужно:
На основе количества слов TF IDFКаковы главные слова для одного конкретного элемента.Корпус будет всеми описаниями, присутствующими в кадре данных, я не уверен, как к этому добраться.
Как найти ближайший (наиболее похожий элемент) на основе сходства косинусовна основе количества слов TF IDF в описании.
Я пытаюсь использовать для этого панд и Склеарн.Любая помощь очень ценится.
Заранее спасибо.