Поиск слов слова пост TF IDF в Python - PullRequest
0 голосов
/ 22 февраля 2019

Я новичок в Python и кластеризации, я пытаюсь найти близость 2 элементов на основе характеристик, которые они имеют в своем описании, т. Е. Классическая проблема поиска документов.

В фрейме данных, который я использую,У меня есть 2 поля, идентификатор и описание, и этот фрейм данных содержит ~ 1000 записей для различных элементов.

Что сейчас нужно:

  1. На основе количества слов TF IDFКаковы главные слова для одного конкретного элемента.Корпус будет всеми описаниями, присутствующими в кадре данных, я не уверен, как к этому добраться.

  2. Как найти ближайший (наиболее похожий элемент) на основе сходства косинусовна основе количества слов TF IDF в описании.

Я пытаюсь использовать для этого панд и Склеарн.Любая помощь очень ценится.

Заранее спасибо.

...