Классификация глубокого обучения без ярлыков - PullRequest
0 голосов
/ 06 февраля 2019

Я должен участвовать в исследовательском проекте, касающемся применения глубокого обучения для классификации.У меня есть огромный набор данных, содержащий более 35000 объектов - это хорошие значения, взятые из лаборатории.

Идея состоит в том, что мне следует создать классификатор, который должен сообщать с учетом нового ввода, если данные кажутся хорошимиили нет.Я должен использовать глубокое обучение с керасом и тензорным потоком.

Проблема в том, что данные не классифицированы.Я введу новый столбец с 1 для хорошего и 0 для плохого.Проблема в том, как я могу узнать, является ли запись плохой, учитывая тот факт, что весь обучающий набор хорош?

Я думал о создании некоторых данных мусора, но я не знаю, если это хорошоидея - я даже не знаю, как ее генерировать.Есть ли у вас какие-либо советы?

1 Ответ

0 голосов
/ 06 февраля 2019

Я бы начал с обнаружения анамолии.Вы можете сначала уменьшить количество функций с помощью (многоуровневого) автоэнкодера, а затем использовать локальный коэффициент выбросов из sklearn: https://scikit -learn.org / stable / modules / outlier_detection.html

Причинапочему сначала нужно уменьшить количество функций, так это то, что ваш LOF будет намного более стабильным.

...