У меня есть фрейм данных с твитами от 500 разных пользователей.У каждого пользователя есть 1-200 твитов.Для каждого твита я записал количество подписчиков, которые есть у пользователя, а также задание для твита (ретвиты + избранное).Сейчас я пытаюсь провести регрессию lm с участием, как у DV, так и у последователей, как у моего IV.
Проблема в том, что IV (последователи) являются как категоричными, так и непрерывными.Для пользователей с 200 твитами в наборе данных будет 200 твитов с таким же количеством подписчиков, прикрепленных к ним.В основном, IV является категоричным с 500 различными категориями в пределах диапазона от 8000 до 1,9 миллиона.Следствием этого является то, что точки данных на моем графике «сложены» друг на друга, и линейка страдает.Есть ли способ, которым я могу реструктурировать / преобразовать свои данные, чтобы я мог визуально улучшить линейное представление?(само линейное соотношение подтверждается с помощью краткого описания lm).
Надеюсь, кто-то понимает эту довольно странную проблему и может помочь мне!