Как составлять модели с отсутствующим выводом? - PullRequest
0 голосов
/ 09 ноября 2019

Я хочу создать регрессионную модель с большим количеством разных источников данных (три разных источника изображений, скажем, $ I_1 $, $ I_2 $ и $ I_3 $ и два разных файла данных CSV, скажем, $ D_1 $ и $ D_2 $.).

Как правило, было бы легко обучить все эти 5 моделей с использованием генератора, который выдает соответствующие данные для каждой из них, а затем объединить выходные данные этих данных для обучения регрессионной головки.

Однако моя проблема в том, что, скажем, у $ ID_1 $ есть изображение, доступное в $ I_1 $ и в $ I_2 $, но нет в $ I_3 $, а данные доступны только в $ D_1 $. Следовательно, я могу обучать каждую модель только на некотором подмножестве набора данных, что само по себе не является проблемой.

Реальная проблема заключается в том, что делать с «головкой регрессии», поскольку выходные данные некоторых моделейбудет отсутствовать (например, ID_1 будет иметь только 3 выхода из 5 моделей).

Мои идеи в настоящее время не очень хороши. Первым было бы обучить каждую модель до регрессионной части и просто усреднить результат по доступному результату модели. Может быть, я мог бы также вычислить вес для каждой модели с помощью простой регрессии и использовать их в среднем, но опять же я не уверен, как бы я это сделал с выходными данными этих отсутствующих моделей.

Второй будетиспользовать что-то еще, кроме нейронной сети, которая может обрабатывать недостающие данные, но я не совсем уверен, что (я довольно новичок в науках о данных в целом, но я слышал, что Случайный лес или XGboost могли бы справиться с этими недостающими данными, поэтому я хотел бы узнать ваше мнение по этому поводу.

Третий - разделить обучающий набор на подмножества $ 2 ^ 4 $ (один из этих пяти источников данных охватывает весь мой набор данных, поэтому16 возможностей наличия или отсутствия заданного источника данных). Я бы затем заморозил какую-то часть регрессионной головки во время тренировки данного подмножества. Я даже не уверен, имеет ли это смысл или возможно ли это вообще! Это позволило бы избежать слишком частого разделения набора данных, поскольку веса, связанные с данной моделью, будут обучаться на $ 2 ^ 3 $ из этих $ 2 ^ 4 $ подмножеств. Опять же, не уверен, что это имеет смысл.

Четвертый - тренировать 16 различных регрессионных голов. Проблема в том, что он слишком разбил бы мой набор данных, а некоторые подмножества были бы слишком тонкими.

Спасибо за ваши советы и извините за мой английский, это не мой родной язык!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...