Я прочитал много учебников в Интернете и темы по stackoverflow, но один вопрос для меня все еще неясен.Если рассматривать только стадию сбора данных для многокомпонентного обучения, какой способ (см. Ниже) лучше и являются ли они приемлемыми и эффективными?
- Попробуйте найти «чистые» примеры с одной надписью любой ценой.
- Каждый пример может быть с несколькими надписями.
Например, у меня естьстатьи о войне, политике, экономике, культуре.Обычно политика, связанная с экономикой, война, связанная с политикой, вопросы экономики могут появляться в статьях по культуре и т. Д. Я могу назначить строго одну основную тему для каждого примера и отбросить неопределенные работы или назначить 2, 3 темы.
Я собираюсь обучить данные, используя Spacy, объем данных будет составлять около 5-10 тысяч примеров по теме.
Буду благодарен за любые объяснения и / или ссылку нанекоторое уместное обсуждение.