Одна огромная или несколько маленьких моделей для классификации текста - PullRequest
0 голосов
/ 24 сентября 2019

Я работаю над классификацией большой текстовой базы данных (миллионы текстов), доступной для нескольких тысяч категорий / подкатегорий (очень похожих на набор данных о продуктах amazon).

Мой вопрос заключается в том, могу ли я получить более высокую (в общем случае) точность путем создания нескольких моделей, например

  • Одна модель для получения основной категории (одна основная модель)
  • Отдельные модели для каждой основной категории, чтобы получить окончательную подкатегорию.(много моделей категорий)

    по сравнению с

  • Одна огромная модель для всех текстов и всех подкатегорий.

Мне интересно, является ли словарь, который используется в текстах основной категории и их подкатегорий, более простым (и меньшего размера) и более точным для изучения для модели?Но будет дополнительная проблема, если основная модель предсказывает неправильную основную категорию - тогда поиск правильной подкатегории не будет иметь шанса предсказать правильный результат.

Есть ли какие-либо исследования по этому поводу?Какие-нибудь эмпирические правила?Большое спасибо!

1 Ответ

0 голосов
/ 24 сентября 2019

не знает об исследованиях, но может предложить сначала использовать матрицу точности и отзыва для основной модели (с несколькими методами моделирования), и если какая-либо модель для всех категорий дает точность, а значения отзыва выше порогового значения, скажем, 99,5%, тоты должен идти со своей идеей.Если вам не удастся добиться этого, не беспокойтесь, просто попробуйте другой подход. Это попытка и наблюдение.дайте мне знать для чего-нибудь еще.Спасибо.

...