Как работать с метками тестовых наборов, которые не находятся в обучающем наборе в Multi Class Text Classification? - PullRequest
0 голосов
/ 22 июня 2019

Я работаю с мультиклассовым набором текстовых классификаций, имеющим наборы поездов и тестов.В тренировочном наборе около 470 уникальных ярлыков и около 250 уникальных ярлыков в тестовом наборе.( Эти 470+ 250 уникальных этикеток происходят из большого набора этикеток размером 4 миллиона. )

Существует около 30 этикеток, которые только в тестовом наборе, но не в обучающем наборе.

Нужно ли мне кодировать каждую метку в один горячий вектор размером 4 миллиона, а не 450? , чтобы я мог обработать и те недостающие 30 меток

1 Ответ

1 голос
/ 22 июня 2019

нет способа , чтобы ваша модель могла выучить метки, которые она не видела! В идеале в машинном обучении вы предполагаете, что обучающий набор и набор тестов взяты из того же базового распределения . Модель может узнать только то, чему вы обучаете , поэтому вам необходимо убедиться, что вы обучаете и тестируете ее на похожих данных!

Вы можете попытаться объединить два набора вместе, а затем заново разделить их на обучающий и тестовый наборы, чтобы они оба имели одинаковое количество классов. Кроме того, убедитесь, что у вас достаточно данных. Ваша модель не может учиться в классе, который она видела один или два раза. Чтобы модель выучила 500 классов, вам нужно иметь сотни тысяч образцов! Если нет, возможно, попробуйте объединить некоторые из ваших классов.

...