Question

В моем исследовании я изучаю, существует ли статистически значимая идеологическая предвзятость в одном наборе средств массовой информации по сравнению с другим. Я надеялся изучить это, используя подход встраивания слов.

Возьмем, к примеру, средства массовой информации США и Великобритании. Если я построю корпус всех статей в СМИ США за определенный период времени и отдельный корпус всех статей в СМИ Великобритании за тот же период, обучу их каждую, используя один и тот же алгоритм встраивания слов (gensim/word2vec/fasttext) с одним и тем же набором параметров ( например, размер окна и вектора), можно ли проверить, является ли косинусное сходство, полученное между парой слов в корпусах США, статистически значимо большим, чем сходство косинусов, полученное между той же парой слов в корпусах Великобритании?

Большое спасибо за вашу помощь!

amirothman · Answer 1 · 09 мая 2020

ваша цель, подход и ваш вопрос неясны.

Ваша цель - выявить любые идеологические предубеждения, если они существуют
Вы подходите к этому, сравнивая два разных результата одного и того же алгоритм встраивания слов (скажем, Word2Ve c)
Ваш вопрос заключается в том, можно ли сравнить два вектора, обученных из двух разных корпусов

Однако я просто отвечу на ваш вопрос. Ответ - да, конечно, можно

проверить, является ли косинусное сходство, полученное между парой слов в> корпусах США, статистически значимо больше, чем косинусное сходство, полученное между теми же самыми пара слов в корпусе UK?

Как я лично подхожу к этому:

Для каждого корпуса выполните:

получить случайное слово
получить 100 слов, ближайших к этому слову
измерить среднее расстояние

выполнить p-тест, чтобы проверить, есть ли разница в сходстве между словами в одном и том же

Обратите внимание, что достижение вашей реальной цели при этом не гарантируется.

Можно ли сравнить оценки сходства в репозитории двух слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Можно ли сравнить оценки сходства в репозитории двух слов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы