Prdicting Y, когда у нас есть шаблон во входном тексте, используя ML? - PullRequest
0 голосов
/ 05 декабря 2018

У меня есть набор данных около 20k, в котором у меня есть 13k уникальных зависимых переменных в этих 20k.Мои данные имеют образец, как показано ниже:

       Pattern        Y

0 dd AN dd AN dd AN    Y1
1 dd AN dd AN dd AN    Y1
2 a omnes              Y2
3 agence reuters ralr agence retr sarl   Y3

Одновременно 20k + наблюдение.Таким образом, в производстве, я должен предсказать Y во время производства, как только эти данные шаблона поступают.

Моя проблема в том, что у меня нет большого количества наблюдений для каждой уникальной зависимой переменной (например, 1-5 наблюдений в течение некоторого или большей части времени, когда это 1).

МойПодход

Я использую tf-idf и тренирую свою модель на наивных байках.Я получаю хорошую точность примерно на 70%.

Моя проблема

Я боюсь, потому что я тренировал это на 1-5 наблюдениях, так что даже в небольших вариацияхпри вводе может привести к большому смещению в выводе.

Так может ли любой орган подскажет мне лучший подход к этой проблеме, который может быть запущен в производство.

1 Ответ

0 голосов
/ 05 декабря 2018

Попробуйте создать дополнительные наблюдения с помощью кода, чтобы проверить надежность вашей модели.

Сколько разных токенов у вас есть на входе?

Напишите функцию для случайного генерирования шаблонов путем смешивания и сопоставления токенов (например, dd, AN, agence, reuters, ralr, sarl) для создания новых шаблонов.Вы также можете добавить несколько новых токенов (например, xyzr) в сгенерированные шаблоны, которых модель раньше не видела.

Создайте около 100 таких шаблонов, а затем протестируйте свою модель.Это даст вам представление о том, насколько чувствительна ваша модель к вариациям, на которых она не обучалась.

Вы можете настроить этот код синтетического паттерна, чтобы протестировать варианты, с которыми вы больше всего беспокоитесь при работе

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...