Заполнение нескольких пропущенных данных с помощью алгоритма EM - PullRequest
0 голосов
/ 10 декабря 2018

Я учусь с этот пункт .Начиная со страницы 22 показано, как недостающие данные можно заполнить наиболее вероятным значением с помощью алгоритма EM.Мне удалось понять это, но я начал задаваться вопросом, как я могу заполнить 2 недостающие данные.Если бы отсутствовали только 2 данные в поле B, я могу видеть, как бы я рассчитал их.Но что, если отсутствуют одни данные, как в поле A, так и в поле B?Расчет на ppt проводится с предположением, что данные по A точные, но в этом случае это не так ... Может кто-нибудь объяснить немного?

1 Ответ

0 голосов
/ 10 декабря 2018

Если вы хотите пропустить значения как в A, так и в B, вам нужны дополнительные скрытые переменные.Чтобы быть более точным:

Предположим, что у вас есть 4 скрытые переменные, H1, H2, A 'и B', принимающие значения в {0, 1}, которые генерируют ваши наблюдения (A, B) следующим образом:

  • A = A ', если H1 = 0, A =' H 'в противном случае
  • B = B', если H1 = 0, B = 'H' в противном случае

и предположим, что (A ', B') не зависит от (H1, H2).Следовательно, ваша модель параметризована совместным распределением (A ', B') и совместным распределением (H1, H2).

Теперь, чтобы изучить модель, вы можете просто запустить EM, как и раньшеединственное отличие состоит в том, что ваша скрытая переменная H теперь расширена на A ', B', H1 и H2.Как только ваша модель изучена, вы можете заполнить пропущенные пары наблюдений наиболее вероятной парой (учитывая распределение модели).

...