Question

Я пытаюсь получить список тем из большого массива новостных статей, я планирую использовать gensim для извлечения рассылки тем для каждого документа с использованием LDA. Я хочу знать, какой формат обработанных статей требуется для реализации lda в gensim, и как конвертировать необработанные статьи в этот формат. Я видел эту ссылку об использовании lda в дампе википедии, но обнаружил, что корпус находится в обработанном состоянии, формат которого нигде не упоминался

snøreven · Answer 1 · 06 апреля 2012

Я не знаю, правильно ли я понял проблему, но gensim поддерживает несколько корпусов. Вы можете найти их список здесь .

Если вы хотите обрабатывать естественный язык, вы должны сначала токенизировать текст. Вы можете следовать пошаговым инструкциям на веб-сайте Gensim здесь . Это очень хорошо объяснено.

Karsten · Answer 2 · 22 ноября 2012

Существует этап обучения в автономном режиме и этап создания функции в Интернете.

Обучение в автономном режиме

Предположим, у вас есть большой корпус, такой как Википедия, или вы скачали кучустатьи новостей.

Для каждой статьи / документа:

Вы получаете необработанный текст
Вы его лемматизируете.Gensim имеет utils.lemmatize
Вы создаете словарь
Вы создаете пакет представления слов

Затем вы обучаете модель TF-IDF и конвертируете весь корпусв пространство TF-IDF.Наконец, вы тренируете модель LDA на «TF-IDF corpus».

Online

С входящей новостной статьей вы делаете почти то же самое:

Лемматизируйте его
Создайте пакет представления слов, используя словарь.
Преобразуйте его в пространство TF-IDF, используя модель TF-IDF
Преобразуйте егов пространство LDA.

Как использовать gensim для lda в новостных статьях?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать gensim для lda в новостных статьях?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы