У меня есть структурированный набор данных со столбцами «текст» и «тема». Кто-то уже провел встраивание слов / моделирование тем, поэтому каждой строке в тексте присваивается номер темы (1-200). Я хотел бы создать новый фрейм данных с номером темы и 5–10 ключевыми словами, представляющими эту тему.
Я делал это раньше, но обычно начинаю с нуля и запускаю модель LDA. Затем используйте объекты, созданные LDA, чтобы найти ключевые слова по теме. Тем не менее, я начинаю с середины, которую дал мне мой начальник, и это сбивает меня с толку.
Структура данных выглядит следующим образом:
import pandas as pd
df = pd.DataFrame({'text': ['foo bar baz', 'blah bling', 'foo'],
'topic': [1, 2, 1]})
Итак, планируется ли создать пакет слов, сгруппировать «по темам» и сосчитать слова? Или есть функция и группировка ключевых слов по столбцу, о которых я не знаю в gensim или nltk?