Итак, из университета мы получили этот набор данных с 360 ответами, описывающими бизнес-возможности одним предложением. Каждое предложение состоит из 8-20 слов, описывающих деловую возможность, которой можно заняться. Они взяты из одного образца, который прошел обучение для создания этих вариантов, поэтому существует совпадение.
Теперь я хочу получить представление о созданных параметрах без необходимости вручную кластеризовать их. Однако из-за отсутствия исторических c помеченных экземпляров классификация кажется невозможной. Кроме того, ограниченный объем данных запрещает неконтролируемые методы, такие как моделирование topi c с LDA.
Я новичок в кодировании в Python и в обработке nlp / текста в целом, и я застрял в том, где начать. Есть ли у кого-нибудь предложения о том, как решить эту проблему, частичное выполнение процессов вручную тоже подойдет.