У меня есть вопрос, надеюсь, вы мне поможете.
Я несколько раз проводил классификацию текста (бинарная классификация и мультикласс).Мне любопытно, можно ли получить приемлемые результаты классификации текста заранее, не выполнив всю работу по реализации и использованию модели для прогнозирования класса, расчета матрицы путаницы, оценки F1 и т. Д. Другими словами, основываясь на моем только данные определяют, могут ли мои данные быть разделены достаточно , чтобы я мог получить приемлемые результаты классификации.Да, разные модели будут давать разные результаты, но на мгновение отложим модель ...
Например, рассмотрим двоичную классификацию текста с обучающим набором, который имеет равные данные, помеченные как «Класс A» и «Класс B».Если бы я должен был:
- удалить стоп-слова
- нормализовать текст (основание или лемматизация)
- собрать все отдельные слова в классе A
- собрать все отдельные слова в классе B
- и, наконец, рассчитать количество пересекающихся слов. Я должен иметь возможность определить, насколько уникален каждый класс и может ли классификатор давать приемлемые результаты, верно?
Ниже, между словами в обоих классах есть небольшое совпадение, поэтому классификатор, вероятно, мог бы дать приемлемые результаты.
Ниже много совпадений между словами в обоих классах, поэтому классификатор, скорее всего, не даст приемлемых результатов.
Спасибо.