Я довольно новичок в НЛП и пытаюсь изучить методы, которые могут помочь мне выполнить мою работу.
Вот моя задача: мне нужно классифицировать этапы процесса сверления на основе текстовых заметок.
Я должен классифицировать ярлыки для «Активность», «Детализация активности», «Операция» на основе того, что написано в столбце «Ком».
Я читал много статей в Интернете, и все виды техник, которые я читал, действительно смущают меня.
Модные слова, которые я пытаюсь понять:
- Скип-грамма (метод прогнозирования, Word2Vec)
- TF-IDF (частотный метод)
- Матрица сопутствующих явлений (частотный метод)
Мне дается около 40 000 строк данных (я знаю, что они довольно малы), и я наткнулся на статью, в которой говорится, что модели на основе нейронных сетей, такие как Skip-gram, могут не быть хорошим выбором, если у меня небольшое количество тренировок. данные. Так что я тоже изучал частотные методы. В целом, я не уверен, какая техника лучше для меня.
Вот что я понимаю:
- Skip-gram: техника, используемая для представления слов в векторном пространстве. Но я не понимаю, что делать дальше, как только я векторизовал свой корпус
- TF-IDF: сообщает, насколько важно каждое слово в каждом предложении. Но я до сих пор не знаю, как это можно применить к моей проблеме
- Матрица совместного появления: я действительно не понимаю, что это такое.
- Все три метода предназначены для численного представления текстов. Но я не уверен, какой шаг мне следует предпринять для фактической классификации ярлыков.
Какой подход и последовательность методов мне следует использовать для решения моей проблемы? Если есть какой-либо проект с открытым исходным кодом Jupyter notebook или ссылка на статью (возможно, с кодами), которая проделала аналогичную работу, поделитесь ею здесь.