В моем исследовании я изучаю, существует ли статистически значимая идеологическая предвзятость в одном наборе средств массовой информации по сравнению с другим. Я надеялся изучить это, используя подход встраивания слов.
Возьмем, к примеру, средства массовой информации США и Великобритании. Если я построю корпус всех статей в СМИ США за определенный период времени и отдельный корпус всех статей в СМИ Великобритании за тот же период, обучу их каждую, используя один и тот же алгоритм встраивания слов (gensim/word2vec/fasttext
) с одним и тем же набором параметров ( например, размер окна и вектора), можно ли проверить, является ли косинусное сходство, полученное между парой слов в корпусах США, статистически значимо большим, чем сходство косинусов, полученное между той же парой слов в корпусах Великобритании?
Большое спасибо за вашу помощь!