Question

У меня есть несколько сотен тысяч измерений, где зависимый переменная является вероятностью, и хотел бы использовать логистическую регрессию. Тем не менее, все ковариаты, которые у меня есть, являются категоричными, и что еще хуже вложенный. Я имею в виду, что если определенное измерение имеет "город - Феникс "тогда, очевидно, наверняка есть" штат - Аризона "и "страна - США" У меня есть четыре таких фактора - самый гранулированный около 20 тысяч уровней, но, если понадобится, я могу обойтись без этого, я думаю. У меня также есть несколько не вложенных категориальных ковариат (только четыре или около того, возможно с тремя различными уровнями каждый). Что меня больше всего интересует это прогноз - учитывая новое наблюдение в каком-то городе, я бы хотел знать соответствующую вероятность / зависимую переменную. Я не заинтересован столько же в связанных логических механизмах - стандартные отклонения, и т. д. - по крайней мере, на данный момент. Я надеюсь, что могу позволить себе быть неряшливым. Тем не менее, я хотел бы получить эту информацию, если она не требует методы, которые являются более дорогими в вычислительном отношении. У кого-нибудь есть советы, как на это напасть? Я смотрел в смешанные эффекты, но я не уверен, что это то, что я ищу.

DrewConway · Answer 1 · 18 апреля 2010

Я думаю, что это больше вопрос дизайна модели, чем конкретно R; поэтому я хотел бы сначала обратиться к контексту вопроса, а затем к соответствующим пакетам R.

Если ваша зависимая переменная является вероятностью, например, $ y \ in [0,1] $, логистическая регрессия не подходит для данных - особенно если учесть, что вы заинтересованы в прогнозировании вероятностей вне выборки. Логистика будет моделировать вклад независимых переменных в вероятность того, что ваша зависимая переменная переместится с нуля на единицу, а поскольку ваша переменная является непрерывной и усеченной, вам нужна другая спецификация.

Я думаю, что ваша последняя интуиция о смешанных эффектах хорошая. Поскольку ваши наблюдения вложены, то есть US <-> AZ <-> Phoenix, многоуровневая модель или, в данном случае, иерархическая линейная модель, может быть наилучшей спецификацией для ваших данных. Лучшими пакетами R для этого типа моделирования являются multilevel и nlme, и здесь есть отличное введение в многоуровневые модели в R и nlme, доступные здесь . Вы можете быть особенно заинтересованы в обсуждении манипулирования данными для многоуровневого моделирования, которое начинается на странице 26.

hadley · Answer 2 · 18 апреля 2010

Я бы посоветовал посмотреть на штрафные регрессии, такие как эластичная сеть. Эластичная сеть используется в интеллектуальном анализе текста, где каждый столбец представляет наличие или отсутствие одного слова, и, возможно, сотни тысяч переменных - аналогичная проблема для вас. Хорошее место, чтобы начать с R, было бы пакетом glmnet и сопровождающим его документом JSS: http://www.jstatsoft.org/v33/i01/.

регрессии со многими вложенными категориальными ковариатами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

регрессии со многими вложенными категориальными ковариатами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы