Восстановить модель производства с помеченными + прогнозными данными? - PullRequest
0 голосов
/ 03 февраля 2019

Допустим, в настоящее время я занимаюсь классификацией текста по двум разным классам.Теперь у меня есть помеченные данные, которые я классифицировал вручную как X или Y. Набор данных очень большой с набором данных размером 7000 (3500 X, 3500 Y).

Дело в том, чтоУ меня есть 2000, которые в настоящее время не помечены, но они принадлежат либо X, либо Y (другого класса нет).

Точность, отзыв и f1 моей модели составляют 95-98 в зависимости от используемой модели.

Цель состоит в том, чтобы больше не нуждаться в ручной классификации X или Yи просто позвольте модели ML сделать это для меня (ofc это иногда ошибается и все нормально).

Вопрос в том, могу ли я использовать предсказания модели вместе с данными по обучению и валидации, классифицированными вручную.когда я позже переобучу свою модель?

Я знаю, что это довольно сложный вопрос, потому что у вас нет всей информации и т. д. Но я думаю, что я не единственный, кто хочет заменитьто, что в настоящее время делается вручную с моделью ML.

1 Ответ

0 голосов
/ 04 февраля 2019

Я думаю, что это определенно не очень хорошая идея.Тем самым вы просто улучшите «уверенность» вашей модели в том, что прогнозы верны.Что делать, если вы добавляете документы, которые сильно отличаются от тех, что в вашем учебном наборе?Я бы предпочел одну из двух вещей (хотя кажется, что ваша модель уже имеет очень хорошую производительность):

  1. Если вы можете вручную пометить еще пару документов, возможно, вы сможетепридумайте обоснование, которое вы хотели бы обозначить.Например, вы можете пометить вручную те, где вероятность прогноза низкая (где обученный вами классификатор не очень «уверен» в точности прогноза)

  2. Если у вас многонепомеченных данных, и вы ожидаете, что они будут вести себя не так, как ваши тренировочные данные, возможно, стоит проверить обучение под наблюдением под наблюдением.Это позволит использовать как помеченные данные, так и распространение немеченых данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...