Я работаю над классификацией большой текстовой базы данных (миллионы текстов), доступной для нескольких тысяч категорий / подкатегорий (очень похожих на набор данных о продуктах amazon).
Мой вопрос заключается в том, могу ли я получить более высокую (в общем случае) точность путем создания нескольких моделей, например
- Одна модель для получения основной категории (одна основная модель)
Отдельные модели для каждой основной категории, чтобы получить окончательную подкатегорию.(много моделей категорий)
по сравнению с
Одна огромная модель для всех текстов и всех подкатегорий.
Мне интересно, является ли словарь, который используется в текстах основной категории и их подкатегорий, более простым (и меньшего размера) и более точным для изучения для модели?Но будет дополнительная проблема, если основная модель предсказывает неправильную основную категорию - тогда поиск правильной подкатегории не будет иметь шанса предсказать правильный результат.
Есть ли какие-либо исследования по этому поводу?Какие-нибудь эмпирические правила?Большое спасибо!