Классы Агреггации по НЛП с использованием K-Means. Должен ли я использовать PCA или нет? - PullRequest
0 голосов
/ 12 февраля 2020

Для начала хочу отметить, что я нуб с точки зрения НЛП и МЛ. Просто пробую кое-что. Английский sh не является моим естественным языком, поэтому извините меня за некоторые ошибки.

Я пытаюсь классифицировать электронные письма на основе этого кадра данных Original Dataset after text pre-processing. После предварительной обработки текста в наборе данных было 65 тыс. Электронных писем, я решил взять 20 тыс. Электронных писем только для вычислительных целей.

Я понял, что классы не сбалансированы, что может отрицательно сказаться на обучении модель. Я попытался разработать план, основанный на аналитическом подходе c, который позволил бы мне правильно сократить количество классов, объединяя те, которые похожи.

Original distribution Vs. New Distribution

Мой первый подход заключался в использовании моей интуиции и агрегировании наиболее похожих классов, таких как «Потребительский кредит», «Студенческий кредит», «День выплаты жалованья» и др. c. Но мне сказали, что мы всегда должны делать этот выбор на основе аналитики.

Я пытался использовать кластеризацию K-средних, но это занимало целую вечность (+/- 45 мин), и визуализация, которая из этого получалась, была неубедительной, главным образом потому, что почти все точки данных, принадлежащие разным кластерам, были наложены , Я обнаружил несколько разных методов, таких как уменьшение размерности (PCA и Factor Analysis), но мне сказали, что это плохой подход, и я должен полностью об этом забыть. Проблема в том, что я пытался применить PCA для кластеризации своих классов, и это действительно сработало (PCA approach).

Итак, я должен использовать PCA, и если так, то почему? Можете ли вы дать некоторые ссылки, которые объясняют математику за этим? Если это не так, можете ли вы дать мне совет?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...