Я предвосхищу это, сказав, что я довольно новичок в R и застрял в этом вопросе в течение нескольких недель и, похоже, никуда не денусь.Я хочу выполнить многомерную логистическую регрессию, чтобы определить, играет ли материал водопровода и тип почвы фактор, определяющий местоположение разрывов водопровода в моей области исследования.
У меня есть 417 положительных точек разрыва водопроводной магистрали и я создаю еще 400 ложных мест для использования в моем анализе.Я понимаю, что материал водной магистрали и тип почвы являются категориальными переменными и должны быть перекодированы в фиктивные переменные перед использованием модели GLM.Вот где у меня проблемы.До сих пор я не работал с фиктивными переменными и, похоже, не могу понять, как они создаются в R. Ниже приведена разбивка данных, которые у меня есть, и текущей модели GLM, которую я использую.
ИНДИКАТОР:0 или 1 (указывает на то, было или нет местоположение XY местом разрыва водопровода)
ОСНОВНОЙ МАТЕРИАЛ: Материал водовода в месте XY (категориальное значение - около 8 уникальных значений)
КЛАССИФИКАЦИЯ ПОЧВЫ: Тип почвы в месте разрыва (категориальное значение - около 20 значений)
(logAnalysis <- glm (Индикатор ~ main_material + грунт_классификация, данные = Разрывы, семейство = биномиальный (ссылка = "logit)")) </p>
Я использовал Stack Exchange только один раз, поэтому, если требуется дополнительная информация, пожалуйста, дайте мне знать.
После попытки Аастера использовать фактор (), это выводчто я получаю. R Ouput
Я немного сбит с толку, почему во многих классификациях грунтов и в основном материале PE такие высокие стандартные ошибки.