Я постараюсь дать ответ на вопрос.
Что означает предупреждение? Предупреждение выдается, когда численная точность может быть под вопросом для определенных наблюдений.Точнее, это дается в случае, когда подобранная модель возвращает вероятность 1 - эпсилон или эквивалентно 0 + эпсилон.Стандартно эта граница составляет 1-10 ^ -8 и 10 ^ -8 соответственно (как указано в glm.control) для стандартной функции glm.fit.
Когда это может произойти? По моему опыту, случай, когда это происходит чаще всего, - это случай, когда включаются факторы (или фиктивные переменные), для которых только один результат наблюдается в одной категории.Чаще всего это происходит, когда взаимодействия включены в факторы многих уровней и ограничены данными для анализа.Аналогично, если имеется много переменных по сравнению с количеством наблюдений (считая используемые переменные, преобразования взаимодействий и т. Д. В качестве отдельных переменных, поэтому общее число будет суммой всех этих), будет возможно подобное изображение.В вашем случае, если у вас есть факторы, удаление перехвата добавит 1 уровень к каждому фактору, что может снизить точность около вероятности края 0 и 1. Короче говоря, если для какой-то части наших данных у нас нет (или малонеуверенность, тогда это предупреждение даст нам указание.
Могу ли я игнорировать это иначе, как я могу это исправить? Это зависит от имеющейся проблемы и масштаба проблемы,Некоторые источники, такие как Джон Фокс , вероятно, сочтут эти наблюдения возможными выбросами, и с хорошими аргументами предлагают удалить их после использования мер влияния (доступных в пакете car
для базового glm) или выполнения некоторых тестов выбросов (также доступно в пакете car
для базового glm), если это вариант в вашей области работы.Если это показывает, что они не влияют на подгонку, вы не удалите их, поскольку для этого не будет статистического аргумента.
Если удаление выброса не является вариантом в вашей области работы, то уменьшенная модель(в общем случае меньше переменных) может помочь, если это является причиной, или если число факторов является причиной, уровни слияния внутри факторов могут дать некоторые лучшие результаты.
В других источниках могут быть и другие предложения, но Джон Фокс является заслуживающим доверия источником по теме для этих типов моделей.Возникает вопрос: «Правильно ли указана моя модель?», «Насколько сильно это влияет на мою модель?»и «Сколько вам разрешено делать в своей работе?», следуя общей теории и руководящим принципам в статистике.Вероятности, близкие к 0 и 1, с меньшей вероятностью будут точными и более вероятными из-за числового впечатления, но если это не те случаи, которые вы, вероятно, можете предсказать, и нет существенного влияния на оставшуюся часть модели, этоне обязательно является проблемой и может игнорироваться.