Существуют ли какие-либо статистически обоснованные способы преобразования показателей центральности в сетях в показатели? - PullRequest
0 голосов
/ 08 июня 2018

Прямо сейчас я нахожу центральное место между игроками в соответствующих хоккейных командах.Поскольку некоторые игроки могут играть в 60 игр, в то время как другие могут играть в 20 игр, игроки, которые играют в 60 игр, почти всегда (по понятным причинам) имеют более высокую центральность между ними.Тем не менее, я пытаюсь придумать способ нормализовать центральное место для количества сыгранных игр, чтобы я мог сравнить влияние разных игроков, учитывая их частоту.

Я пыталсяделение по играм, в которые играли, но это все еще недооценивает дополнительный эффект от игры в большее количество игр (см. графики).

Первый график - Игры, сыгранные против общего (совокупного) Между - enter image description here

Второй график - Игры, сыгранные против Между за сыгранную игру (все еще положительный наклон)enter image description here

В идеале я не хочу иметь отношения между играми и нормализованной центральностью между ними, чтобы я мог сравнивать игроков независимо от того, сколько игр они сыграли.Есть идеи, что я могу сделать?

1 Ответ

0 голосов
/ 08 июня 2018

Вы не предоставляете никаких данных, поэтому я буду использовать встроенный набор данных, чтобы помочь вам.Набор данных mtcars и представьте, что cyl представляет количество игр, а disp представляет ваши оценки центральности.

Вы можете увидеть взаимосвязь на этом графике

library(tidyverse)

# plot cyl against disp
mtcars %>% 
  ggplot(aes(cyl, disp))+
  geom_point()+
  geom_smooth(method = "lm")

enter image description here Сыгранные игры (т. Е. cyl) соотносятся с показателями центральности (т. Е. disp).

Затем вы можете создавать новые оценки, подобные этой

# build the model
m = lm(disp~cyl, data = mtcars)

# use model to get estimated disp at a given cyl value
mtcars$pred_disp = predict(m, newdata = mtcars)

# calculate the difference
mtcars$diff = mtcars$disp - mtcars$pred_disp

И нанесите на карту новые оценки, чтобы увидеть, что они не коррелируют с играми

# plot cyl against diff
mtcars %>% 
  ggplot(aes(cyl, diff))+
  geom_point()+
  geom_smooth(method = "lm")

enter image description here Сыгранные игры (то есть cyl) не коррелируют с новыми оценками центральности (т.е.diff).

Кроме того, проверьте набор данных mtcars, снова сосредоточив внимание на новых переменных, которые были созданы.Ожидаемый показатель центральности (т. Е. pred_disp) является таким же, как и ожидалось, для каждого количества игр (т. Е. cyl).И новые оценки центральности (т.е. diff) - это старые оценки центральности минус ожидаемые.Новый положительный результат означает, что центральность игрока выше ожидаемой центральности для этого количества игр.Отрицательный новый результат означает опоссит.

Обратите внимание, что вы можете выполнить некоторую дальнейшую нормализацию для переменной diff (например, принять значения от -1 до 1), если хотите.

...