Простой способ: выбрасывайте слова, которые встречаются настолько часто, что они мало говорят нам о теме, а также слова, которые встречаются в <15 строках слишком редко, а затем держите 100 000 слов сверху </p>
dictionary_15.filter_extremes(no_below=15, no_above=0.5, keep_n=100000)
Сложный путь: если вам нужны документы только по определенной теме, вы можете создать двухслойный LDA, который сначала выделяет темы, а затем создает второй lda, отфильтровывая документы, классифицированные в первом слое, в вашей целевой теме и выделяя их. Я хотел бы создать LDA, скажем, из пяти тем, вывести их в CSV, затем создать новый документ, отсортировав и отфильтровав его в Alteryx, или даже Excel может оказаться проще, чем Python, и использовать этот документ для выполнения второго шага.