Низкое значение P и низкий квадрат R - PullRequest
0 голосов
/ 31 марта 2020

Я разрабатываю модель, которая может прогнозировать объем финансирования, которое исследовательский институт может получить от правительства. Для этого я использовал линейную регрессию.

Переменная отклика - это сумма финансирования.

Предикторами является Topic_Weight (присвоение веса данному топи c на основе метода встраивания слов в Fasttext. ), Insti_Weight (это количество раз, когда конкретный институт получал финансирование от правительства за последние 4 года), Num_Prof (количество профессоров, участвующих в проекте), Num_Uni (количество университетов, участвующих в проекте), Proj_Duration ( Продолжительность проекта), Цитаты - (количество раз цитировалась статья ведущего исследователя проекта), Публикации (количество статей, которые были опубликованы ведущим исследователем проекта) и фиктивные переменные - биология, биотехнология Ботаника и зоология. Один проект может принадлежать только одному из различных отделов, обозначенных фиктивными переменными.

Проблема в том, что все предикторы имеют разный масштаб, и я попытался записать вариации нескольких параметров, но у меня не было убедительного аргумента для выбора предикторов для преобразования. Таким образом, в текущей модели я не применял никакого преобразования, и я приложил результат линейной регрессии.

Результат линейной регрессии

Также прикрепляя Матрица отношений: Матрица корреляции Итак, у меня есть 3 основных вопроса:

1. Как решить, какие предикторы преобразовать, используя log или какие предикторы стандартизировать? 2. Как увеличить скорректированный квадрат R? 3. Есть ли другой тип регрессии, который может помочь мне лучше прогнозировать финансирование с учетом предикторов?

Я также приложил выборку из 50 записей для вашей справки. У меня всего 1500 записей в главном корпусе. Примеры записей здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...