Существует этап обучения в автономном режиме и этап создания функции в Интернете.
Обучение в автономном режиме
Предположим, у вас есть большой корпус, такой как Википедия, или вы скачали кучустатьи новостей.
Для каждой статьи / документа:
- Вы получаете необработанный текст
- Вы его лемматизируете.Gensim имеет utils.lemmatize
- Вы создаете словарь
- Вы создаете пакет представления слов
Затем вы обучаете модель TF-IDF и конвертируете весь корпусв пространство TF-IDF.Наконец, вы тренируете модель LDA на «TF-IDF corpus».
Online
С входящей новостной статьей вы делаете почти то же самое:
- Лемматизируйте его
- Создайте пакет представления слов, используя словарь.
- Преобразуйте его в пространство TF-IDF, используя модель TF-IDF
- Преобразуйте егов пространство LDA.