Как выбрать репрезентативные / прототипные изображения? - PullRequest
0 голосов
/ 24 марта 2020

В области машинного обучения обучение под наблюдением является одной из основных областей, над которыми работают исследователи. Но проблема в том, что точность (или любые другие метрики) сильно зависит от случайно выбранных помеченных данных. Поэтому я хотел бы знать, как выбрать «репрезентативные» данные из набора данных без меток. Это была бы неконтролируемая методика обучения и не зависящая от данных c. Здесь «Data-agnosti c» означает, что модель выбирает прототипные изображения безотносительно к наборам данных, таким как CIFAR10, 100, SVHN, MNIST и т. Д.

Как бы вы сделали модель этого? Если есть какие-то статьи об этой топике c, пожалуйста, поделитесь этим ниже. Заранее спасибо.

1 Ответ

1 голос
/ 25 марта 2020

Поделитесь моей копейкой мыслей по этому поводу. Возьмем набор данных знаменитостей в качестве примера.

  1. Применить PCA ко всем данным, чтобы найти собственные грани
  2. Выбрать 30 лучших (произвольных) собственных граней, чтобы восстановить все изображения
  3. Выбрать те изображения с самой низкой реконструкцией ошибка

, поскольку их относительно легко представить собственными лицами и, следовательно, они более репрезентативны.

...