Определение степени разделения классов на результаты классификации - PullRequest
0 голосов
/ 25 сентября 2018

У меня есть вопрос, надеюсь, вы мне поможете.

Я несколько раз проводил классификацию текста (бинарная классификация и мультикласс).Мне любопытно, можно ли получить приемлемые результаты классификации текста заранее, не выполнив всю работу по реализации и использованию модели для прогнозирования класса, расчета матрицы путаницы, оценки F1 и т. Д. Другими словами, основываясь на моем только данные определяют, могут ли мои данные быть разделены достаточно , чтобы я мог получить приемлемые результаты классификации.Да, разные модели будут давать разные результаты, но на мгновение отложим модель ...

Например, рассмотрим двоичную классификацию текста с обучающим набором, который имеет равные данные, помеченные как «Класс A» и «Класс B».Если бы я должен был:

  • удалить стоп-слова
  • нормализовать текст (основание или лемматизация)
  • собрать все отдельные слова в классе A
  • собрать все отдельные слова в классе B
  • и, наконец, рассчитать количество пересекающихся слов. Я должен иметь возможность определить, насколько уникален каждый класс и может ли классификатор давать приемлемые результаты, верно?

Ниже, между словами в обоих классах есть небольшое совпадение, поэтому классификатор, вероятно, мог бы дать приемлемые результаты.

enter image description here

Ниже много совпадений между словами в обоих классах, поэтому классификатор, скорее всего, не даст приемлемых результатов.

enter image description here

Спасибо.

...