Редактировать: Я спрашиваю об этом, потому что я провел более 40 часов, экспериментируя с этими пакетами, и чувствую, что я ничего не получил.
Я довольно новичок в Python.Я успешно выполнил модель RandomForestClassifier в своей организации, и она находится в производстве, но нейронные сети находятся за пределами моего понимания.
Я работаю над проблемой классификации текста в Python.У меня было 243 образца (строки), которые были взяты из 25 вакансий.У меня есть один столбец, который является строковым предложением, и один столбец, в котором публикуется задание, из которого оно получено.
Я готовлюсь к продвижению по службе и подумал, что это будет отличная возможность узнать о нейронных сетях.(Я не собираюсь выступать в роли специалиста по данным, это меня просто очаровывает.) Каждый образец - это одна «служебная обязанность» после публикации вакансии, а каждый «документ» - это публикация работы.У одной публикации работы может быть несколько одинаковых обязанностей, каждая публикация работы должна иметь 2-3 одинаковых (абстрактных) обязанности, и, в конечном счете, я предполагаю, что из моих 25 объявлений о работе будет 15-20 кластеров "обязанностей".
По сути, мой желаемый результат - классифицировать каждую строку (независимо от того, из какой публикации она была отправлена; я не думаю, что мой столбец документа релевантен) по n кластерам.Я не ожидаю ярлыки для моих кластеров.
Я очистил свои 243 образца;удаляя пунктуацию и стоп-слова, и помещая их в информационный кадр.
Пакеты, с которыми я экспериментировал до сих пор, - это Keras, doc2vec, word2vec, nltk и Soundex
Есть ли способ кластеризации моих образцов (без контроля) без данных обучения?
Нужно ли загружать корпус для обучения?Есть ли у корпуса по умолчанию метки классификации?
Что является самым простым (желающим пожертвовать точностью), чтобы получить n кластеров из 243 выборок (я рассмотрю содержимое каждого кластера и определю метку для последующей обработки кластера)
Просто какое-то смутное руководство действительно помогло бы мне.