( Данные : https://1drv.ms/u/s!ArLDiUd-U5dtg1H6y1_0f_m5f2by?e=OmKeWp)
Я пытаюсь предсказать сложность маршрута. Маршрут состоит из серии точек, каждая на расстоянии 10 метров. Каждая точка имеетследующая информация:
Ширина пути
Плотность леса
Скорость падения (Какую скорость будет достигать ваше тело в случае падения)
Наклон
Для каждого маршрута также естьопределенная трудность. Но эти трудности были даны разными людьми и сильно различаются. Таким образом, один человек дал маршрут 4. Но другой, возможно, дал этот маршрут 2. Таким образом, данные содержат человеческие ошибки.
Что я сделал до сих пор:
Я вычислил среднее значение и стандартное отклонение для каждого маршрута . Поэтому я взял все точки одного маршрута и использовал его для вычисления техзначения статистики. Я также добавил длину маршрута (количество точек * 10). (разность = сложность маршрута. Значения от 1 до 12)
Затем я взял эти значения и поместил их в линейную регрессию MОдел. Что оказалось хорошим началом:
Mean Absolute Error: 1.239902061226418
Mean Squared Error: 2.3566221702532917
Root Mean Squared Error: 1.53512936596669
Проблема
Но теперь я неНе знаю, что нужно сделать, чтобы улучшить это, так как мне не хватает знаний в области машинного обучения.
У меня была идея использовать нейронную сеть и просто поставить все точки. Самый длинный маршрут имеет длину 5300 точек, так что я бы сказал, что 5300 входов на маршрут и заполнить точки 0 значениями для тех маршрутов, которые не являются достаточно длинными. Любая информация или ввод для чего-то подобного?
Но я также хотел бы получить хороший результат, используя значения предикторов, как показано выше (среднее, стандартное и т. Д.). Так что я могу сделать, чтобы улучшить прогноз?