У меня есть отмеченные данные (метка и текст), например:
электроника , аксессуары для игровых приставок
электроника , аксессуары для портативных игровых консолей
электроника , игровые приставки
еда , алкоголь
еда , алкоголь
Я пытаюсь обучить мою модель категоризации с помощью Java OpenNLPбиблиотека.
DoccatModel model = DocumentCategorizerME.train("pt", sampleStream, params, customFactory);
Когда я обучаю модель, я получаю следующие сообщения:
Индексирование событий с использованием отсечки 5
Вычислениеколичество событий ... сделано. 5441 события
выпавшие животные событий : [лук = живой, лук = животные, нг =: живой: животные]
животные выпавших событий : [лук =аквариумы]
Отброшенные животные для событий : [лук = водный, лук = растение, лук = удобрения, нг =: водный: растение,
нг =: водный: растение: удобрения, нг =:растение: удобрения]
Одежда с выпавшим событием : [лук = активная одежда]
Одежда с опущенным событием : [лук = один, лук = кусочки, нг =: один: части]
Почему это происходит и что означает пропущенное событие " category ": [....]?