Как применить модель LDA на уровне предложений, используя Gensim? - PullRequest
0 голосов
/ 15 апреля 2019

Можно ли применить модель LDA на уровне предложений с использованием Gensim, как это предложено в Bao and Datta (2014)?Бумага здесь .

Отличительной особенностью является то, что он делает "одну тему на предложение" (стр.1376).Это отличается от других методов уровня предложения, которые обычно позволяют каждому предложению включать несколько тем.«Самый простой способ - рассматривать каждое предложение как документ и применять модель LDA для сбора предложений, а не документов».(P.1376).Но я думаю, что более разумно предположить, что одно предложение касается одной темы.

Спасибо!

1 Ответ

1 голос
/ 15 апреля 2019

Вы можете запустить то, что Brody & Elhadad (2010) называет local-LDA - просто подавать текстовые данные в предложение LDA по предложению - легко, если вы разбиваете свои документы на предложения. Тем не менее, LDA все равно даст вам более одной темы в предложении (по определению вы получаете значения для всех тем, хотя gensim имеет значение по умолчанию minimum_probabiliy 0,01), что, конечно, не совпадает с подходом, предложенным Bao & Датт.

Тем не менее, дополнительный материал к статье Bao & Datta (2014) содержит C или C ++ (я полагаю, это не сказано в readme) .exe плюс инструкции по использованию в материалы. Вы можете просто запустить это из командной строки или написать обертку для Python (чтобы вывод в формате gensim был обледенелым) - если вы это сделаете, поделитесь кодом, это может быть полезно для других.

...