Как использовать gensim для lda в новостных статьях? - PullRequest
3 голосов
/ 02 апреля 2012

Я пытаюсь получить список тем из большого массива новостных статей, я планирую использовать gensim для извлечения рассылки тем для каждого документа с использованием LDA. Я хочу знать, какой формат обработанных статей требуется для реализации lda в gensim, и как конвертировать необработанные статьи в этот формат. Я видел эту ссылку об использовании lda в дампе википедии, но обнаружил, что корпус находится в обработанном состоянии, формат которого нигде не упоминался

Ответы [ 2 ]

4 голосов
/ 06 апреля 2012

Я не знаю, правильно ли я понял проблему, но gensim поддерживает несколько корпусов. Вы можете найти их список здесь .

Если вы хотите обрабатывать естественный язык, вы должны сначала токенизировать текст. Вы можете следовать пошаговым инструкциям на веб-сайте Gensim здесь . Это очень хорошо объяснено.

3 голосов
/ 22 ноября 2012

Существует этап обучения в автономном режиме и этап создания функции в Интернете.

Обучение в автономном режиме

Предположим, у вас есть большой корпус, такой как Википедия, или вы скачали кучустатьи новостей.

Для каждой статьи / документа:

  1. Вы получаете необработанный текст
  2. Вы его лемматизируете.Gensim имеет utils.lemmatize
  3. Вы создаете словарь
  4. Вы создаете пакет представления слов

Затем вы обучаете модель TF-IDF и конвертируете весь корпусв пространство TF-IDF.Наконец, вы тренируете модель LDA на «TF-IDF corpus».

Online

С входящей новостной статьей вы делаете почти то же самое:

  1. Лемматизируйте его
  2. Создайте пакет представления слов, используя словарь.
  3. Преобразуйте его в пространство TF-IDF, используя модель TF-IDF
  4. Преобразуйте егов пространство LDA.
...