Я работаю с текстовыми данными, и в данный момент я поместил свои данные в матрицу терминологического документа и вычислил TF, частоту терминов и TF-IDF, частоту инвертированной частоты документов.Отсюда моя матрица выглядит следующим образом:
столбцы = имена документов
имена строк = слова
, заполненные их оценками TF и TF-IDF.
Я использовал пакет tm
в R
для большей части моего текущего анализа, но чтобы продолжить его, я начал играть с библиотекой gensim
в Python.
Мне не ясно, если у меня есть вложения слова, как в TF и TF-IDF.Я надеюсь использовать Word2Vec / Doc2Vec и получить матрицу, аналогичную той, которая у меня есть в настоящее время, а затем вычислить косинусное сходство между документами.Является ли это одним из выходных данных моделей?
В основном у меня есть около 6000 документов. Я хочу вычислить косинусное сходство между ними и затем оценить эти оценки косинусного сходства.