У меня есть набор данных около 20k, в котором у меня есть 13k уникальных зависимых переменных в этих 20k.Мои данные имеют образец, как показано ниже:
Pattern Y
0 dd AN dd AN dd AN Y1
1 dd AN dd AN dd AN Y1
2 a omnes Y2
3 agence reuters ralr agence retr sarl Y3
Одновременно 20k + наблюдение.Таким образом, в производстве, я должен предсказать Y во время производства, как только эти данные шаблона поступают.
Моя проблема в том, что у меня нет большого количества наблюдений для каждой уникальной зависимой переменной (например, 1-5 наблюдений в течение некоторого или большей части времени, когда это 1).
МойПодход
Я использую tf-idf и тренирую свою модель на наивных байках.Я получаю хорошую точность примерно на 70%.
Моя проблема
Я боюсь, потому что я тренировал это на 1-5 наблюдениях, так что даже в небольших вариацияхпри вводе может привести к большому смещению в выводе.
Так может ли любой орган подскажет мне лучший подход к этой проблеме, который может быть запущен в производство.