регрессии со многими вложенными категориальными ковариатами - PullRequest
2 голосов
/ 17 апреля 2010

У меня есть несколько сотен тысяч измерений, где зависимый переменная является вероятностью, и хотел бы использовать логистическую регрессию. Тем не менее, все ковариаты, которые у меня есть, являются категоричными, и что еще хуже вложенный. Я имею в виду, что если определенное измерение имеет "город - Феникс "тогда, очевидно, наверняка есть" штат - Аризона "и "страна - США" У меня есть четыре таких фактора - самый гранулированный около 20 тысяч уровней, но, если понадобится, я могу обойтись без этого, я думаю. У меня также есть несколько не вложенных категориальных ковариат (только четыре или около того, возможно с тремя различными уровнями каждый). Что меня больше всего интересует это прогноз - учитывая новое наблюдение в каком-то городе, я бы хотел знать соответствующую вероятность / зависимую переменную. Я не заинтересован столько же в связанных логических механизмах - стандартные отклонения, и т. д. - по крайней мере, на данный момент. Я надеюсь, что могу позволить себе быть неряшливым. Тем не менее, я хотел бы получить эту информацию, если она не требует методы, которые являются более дорогими в вычислительном отношении. У кого-нибудь есть советы, как на это напасть? Я смотрел в смешанные эффекты, но я не уверен, что это то, что я ищу.

Ответы [ 2 ]

2 голосов
/ 18 апреля 2010

Я думаю, что это больше вопрос дизайна модели, чем конкретно R; поэтому я хотел бы сначала обратиться к контексту вопроса, а затем к соответствующим пакетам R.

Если ваша зависимая переменная является вероятностью, например, $ y \ in [0,1] $, логистическая регрессия не подходит для данных - особенно если учесть, что вы заинтересованы в прогнозировании вероятностей вне выборки. Логистика будет моделировать вклад независимых переменных в вероятность того, что ваша зависимая переменная переместится с нуля на единицу, а поскольку ваша переменная является непрерывной и усеченной, вам нужна другая спецификация.

Я думаю, что ваша последняя интуиция о смешанных эффектах хорошая. Поскольку ваши наблюдения вложены, то есть US <-> AZ <-> Phoenix, многоуровневая модель или, в данном случае, иерархическая линейная модель, может быть наилучшей спецификацией для ваших данных. Лучшими пакетами R для этого типа моделирования являются multilevel и nlme, и здесь есть отличное введение в многоуровневые модели в R и nlme, доступные здесь . Вы можете быть особенно заинтересованы в обсуждении манипулирования данными для многоуровневого моделирования, которое начинается на странице 26.

0 голосов
/ 18 апреля 2010

Я бы посоветовал посмотреть на штрафные регрессии, такие как эластичная сеть. Эластичная сеть используется в интеллектуальном анализе текста, где каждый столбец представляет наличие или отсутствие одного слова, и, возможно, сотни тысяч переменных - аналогичная проблема для вас. Хорошее место, чтобы начать с R, было бы пакетом glmnet и сопровождающим его документом JSS: http://www.jstatsoft.org/v33/i01/.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...