Question

У меня есть вопрос, надеюсь, вы мне поможете.

Я несколько раз проводил классификацию текста (бинарная классификация и мультикласс).Мне любопытно, можно ли получить приемлемые результаты классификации текста заранее, не выполнив всю работу по реализации и использованию модели для прогнозирования класса, расчета матрицы путаницы, оценки F1 и т. Д. Другими словами, основываясь на моем только данные определяют, могут ли мои данные быть разделены достаточно , чтобы я мог получить приемлемые результаты классификации.Да, разные модели будут давать разные результаты, но на мгновение отложим модель ...

Например, рассмотрим двоичную классификацию текста с обучающим набором, который имеет равные данные, помеченные как «Класс A» и «Класс B».Если бы я должен был:

удалить стоп-слова
нормализовать текст (основание или лемматизация)
собрать все отдельные слова в классе A
собрать все отдельные слова в классе B
и, наконец, рассчитать количество пересекающихся слов. Я должен иметь возможность определить, насколько уникален каждый класс и может ли классификатор давать приемлемые результаты, верно?

Ниже, между словами в обоих классах есть небольшое совпадение, поэтому классификатор, вероятно, мог бы дать приемлемые результаты.

Ниже много совпадений между словами в обоих классах, поэтому классификатор, скорее всего, не даст приемлемых результатов.

Спасибо.

Определение степени разделения классов на результаты классификации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Определение степени разделения классов на результаты классификации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы