Для начала хочу отметить, что я нуб с точки зрения НЛП и МЛ. Просто пробую кое-что. Английский sh не является моим естественным языком, поэтому извините меня за некоторые ошибки.
Я пытаюсь классифицировать электронные письма на основе этого кадра данных . После предварительной обработки текста в наборе данных было 65 тыс. Электронных писем, я решил взять 20 тыс. Электронных писем только для вычислительных целей.
Я понял, что классы не сбалансированы, что может отрицательно сказаться на обучении модель. Я попытался разработать план, основанный на аналитическом подходе c, который позволил бы мне правильно сократить количество классов, объединяя те, которые похожи.
Мой первый подход заключался в использовании моей интуиции и агрегировании наиболее похожих классов, таких как «Потребительский кредит», «Студенческий кредит», «День выплаты жалованья» и др. c. Но мне сказали, что мы всегда должны делать этот выбор на основе аналитики.
Я пытался использовать кластеризацию K-средних, но это занимало целую вечность (+/- 45 мин), и визуализация, которая из этого получалась, была неубедительной, главным образом потому, что почти все точки данных, принадлежащие разным кластерам, были наложены , Я обнаружил несколько разных методов, таких как уменьшение размерности (PCA и Factor Analysis), но мне сказали, что это плохой подход, и я должен полностью об этом забыть. Проблема в том, что я пытался применить PCA для кластеризации своих классов, и это действительно сработало ().
Итак, я должен использовать PCA, и если так, то почему? Можете ли вы дать некоторые ссылки, которые объясняют математику за этим? Если это не так, можете ли вы дать мне совет?