Какие методы я могу использовать для расчета корреляции между словами в квантовой? - PullRequest
0 голосов
/ 16 января 2019

Мой вопрос является продолжением этого .

После очистки моих текстовых данных и визуализации их с помощью wordcloud я хочу увидеть, какие слова соотносятся друг с другом. Здесь возникает проблема:

  1. quanteda имеет функцию textstat_simil, но она говорит Сходство . Итак, являются ли «сходство» и «корреляция» в этом случае одним и тем же? (Связано ли и расстояние?).

  2. Более того, мой dfm выглядит как двоичная матрица. Является ли в этом случае фи корреляция (из статистики по ци) больше указывается? Могу я рассчитать это через quanteda?

  3. У вас, ребята, есть другой контент, а не исходный код GitHub, которые объясняют более подробно методы для расчета меры сходства или расстояния? (Я не мог понять из это код, извините).

Спасибо за терпение!

1 Ответ

0 голосов
/ 18 января 2019

Чтобы вычислить соотношения между функциями и характеристиками Пирсона, вы должны использовать:

textstat_simil(x, method = “correlation”, margin = “features”)

В документации это довольно ясно показано, и по умолчанию используется метод корреляции.

Корреляция Пирсона не будет наиболее подходящей для двоичных данных, и в настоящее время мы не применяем методы Спирмена или другие методы корреляции, более подходящие для категориальных или порядковых данных. Однако вы всегда можете привести dfm к обычной матрице (используйте as.matrix()), а затем использовать методы stats::cor(), в том числе методы Спирмена.

Что касается последнего вопроса, мы используем стандартную реализацию этих мер. Если вы хотите получить более четкое представление о том, что они означают, я предлагаю задать вопрос о перекрестной проверке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...