Нужен ввод: Линейная регрессия предсказывает сложность довольно плохих маршрутов - PullRequest
2 голосов
/ 11 декабря 2019

( Данные : https://1drv.ms/u/s!ArLDiUd-U5dtg1H6y1_0f_m5f2by?e=OmKeWp)

Я пытаюсь предсказать сложность маршрута. Маршрут состоит из серии точек, каждая на расстоянии 10 метров. Каждая точка имеетследующая информация:

Ширина пути
Плотность леса
Скорость падения (Какую скорость будет достигать ваше тело в случае падения)
Наклон

Для каждого маршрута также естьопределенная трудность. Но эти трудности были даны разными людьми и сильно различаются. Таким образом, один человек дал маршрут 4. Но другой, возможно, дал этот маршрут 2. Таким образом, данные содержат человеческие ошибки.

Что я сделал до сих пор:
Я вычислил среднее значение и стандартное отклонение для каждого маршрута . Поэтому я взял все точки одного маршрута и использовал его для вычисления техзначения статистики. Я также добавил длину маршрута (количество точек * 10). (разность = сложность маршрута. Значения от 1 до 12)

enter image description here

Затем я взял эти значения и поместил их в линейную регрессию MОдел. Что оказалось хорошим началом:

enter image description here

Mean Absolute Error: 1.239902061226418
Mean Squared Error: 2.3566221702532917
Root Mean Squared Error: 1.53512936596669

Проблема

Но теперь я неНе знаю, что нужно сделать, чтобы улучшить это, так как мне не хватает знаний в области машинного обучения.

У меня была идея использовать нейронную сеть и просто поставить все точки. Самый длинный маршрут имеет длину 5300 точек, так что я бы сказал, что 5300 входов на маршрут и заполнить точки 0 значениями для тех маршрутов, которые не являются достаточно длинными. Любая информация или ввод для чего-то подобного?

Но я также хотел бы получить хороший результат, используя значения предикторов, как показано выше (среднее, стандартное и т. Д.). Так что я могу сделать, чтобы улучшить прогноз?

1 Ответ

0 голосов
/ 11 декабря 2019

Ниже приведены некоторые шаги, которые необходимо выполнить для разработки наилучшей модели:

  1. проверьте выбросы в данных и нормализуйте данные
  2. Проверьте прочностькорреляция между независимой и зависимой переменными.
  3. Ввод пропущенных значений или создание отдельного сегмента для обработки пропущенных значений в столбцах данных.
  4. Поиск коэффициента вариации инфляции и допускакачество данных и повысить точность модели.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...