Можно ли сравнить оценки сходства в репозитории двух слов? - PullRequest
0 голосов
/ 09 мая 2020

В моем исследовании я изучаю, существует ли статистически значимая идеологическая предвзятость в одном наборе средств массовой информации по сравнению с другим. Я надеялся изучить это, используя подход встраивания слов.

Возьмем, к примеру, средства массовой информации США и Великобритании. Если я построю корпус всех статей в СМИ США за определенный период времени и отдельный корпус всех статей в СМИ Великобритании за тот же период, обучу их каждую, используя один и тот же алгоритм встраивания слов (gensim/word2vec/fasttext) с одним и тем же набором параметров ( например, размер окна и вектора), можно ли проверить, является ли косинусное сходство, полученное между парой слов в корпусах США, статистически значимо большим, чем сходство косинусов, полученное между той же парой слов в корпусах Великобритании?

Большое спасибо за вашу помощь!

1 Ответ

1 голос
/ 09 мая 2020

ваша цель, подход и ваш вопрос неясны.

  • Ваша цель - выявить любые идеологические предубеждения, если они существуют
  • Вы подходите к этому, сравнивая два разных результата одного и того же алгоритм встраивания слов (скажем, Word2Ve c)
  • Ваш вопрос заключается в том, можно ли сравнить два вектора, обученных из двух разных корпусов

Однако я просто отвечу на ваш вопрос. Ответ - да, конечно, можно

проверить, является ли косинусное сходство, полученное между парой слов в> корпусах США, статистически значимо больше, чем косинусное сходство, полученное между теми же самыми пара слов в корпусе UK?

Как я лично подхожу к этому:

Для каждого корпуса выполните:

  • получить случайное слово
  • получить 100 слов, ближайших к этому слову
  • измерить среднее расстояние

выполнить p-тест, чтобы проверить, есть ли разница в сходстве между словами в одном и том же

Обратите внимание, что достижение вашей реальной цели при этом не гарантируется.

...