Отсутствующие значения для данных, которые будут использоваться в модели нейронной сети для прогнозирования - PullRequest
2 голосов
/ 23 мая 2011

В настоящее время у меня есть много данных, которые будут использоваться для обучения нейронной сети с предсказаниями (гигабайты данных о погоде для крупных аэропортов США).У меня есть данные почти каждый день, но в некоторых аэропортах в их данных отсутствуют значения.Например, аэропорта, возможно, не существовало до 1995 года, поэтому у меня нет данных для этого конкретного места.Кроме того, некоторые пропускают целые годы (можно простираться с 1990 по 2011, пропуская 2003).

Что я могу сделать, чтобы тренироваться с этими пропущенными значениями, не вводя в заблуждение мою нейронную сеть?Я думаю о заполнении пустых данных 0 или -1, но я чувствую, что это заставит сеть предсказать эти значения для некоторых выходных данных.

Ответы [ 3 ]

1 голос
/ 24 мая 2011

Я использую много NN для прогнозирования и могу сказать вам, что вы можете просто оставить эти «дыры» в своих данных. Фактически, NN способны изучать взаимосвязи внутри наблюдаемых данных, и поэтому, если у вас нет определенного периода, это не имеет значения ... если вы установите пустые данные в качестве постоянного значения, вы будете давать своему алгоритму обучения вводящую в заблуждение информацию , NN не нуждаются в «непрерывных» данных, фактически рекомендуется перетасовывать наборы данных перед тренировкой, чтобы выполнить фазу обратного распространения на несмежных выборках ...

1 голос
/ 23 мая 2011

Я не эксперт, но наверняка это будет зависеть от типа вашей нейронной сети?

Весь смысл нейронных сетей в том, что они могут справиться с отсутствующей информацией и т. Д.

Я согласен, хотя установка пустых данных с 1 и 0 не может быть хорошей вещью.

Возможно, вы могли бы дать некоторую информацию о вашей нейронной сети?

0 голосов
/ 28 декабря 2015

Ну, тип нейронной сети с именем автоэнкодер подходит для вашей работы.Автоэнкодеры могут быть использованы для восстановления ввода.Автоэнкодер обучен изучению основного коллектора / распределения данных.Однако они в основном используются для задач восстановления сигнала, таких как изображение и звук.Однако вы можете использовать их, чтобы заполнить недостающие функции.

Существует также другая методика, названная « матричная факторизация », которая используется во многих системах рекомендаций.Люди используют методы матричной факторизации, чтобы заполнить огромные матрицы множеством пропущенных значений.Например, предположим, что на IMDb есть 1 миллион фильмов.Почти никто не смотрел даже 1/10 из этих фильмов за всю ее жизнь.Но она проголосовала за некоторые фильмы.Матрица: N by M, где N - количество пользователей и M - количество фильмов.Матричная факторизация относится к числу методов, используемых для заполнения пропущенных значений, и предлагает пользователям фильмы на основе их предыдущих голосований за другие фильмы.

...