Могу ли я использовать моделирование тем LDA, если я не знаю количество тем - PullRequest
0 голосов
/ 24 июня 2019

У меня более 100 тыс. Текстовых файлов с газетными выпусками, и мне нужно определить лексическое поле протекционизма. Тем не менее, в газетных выпусках рассматриваются самые разные темы, и я не могу знать общее количество тем. Могу ли я по-прежнему использовать тематическое моделирование LDA для поиска лексического поля или есть другой метод (может быть, обучение под наблюдением)?

1 Ответ

0 голосов
/ 24 июня 2019

Вы, вероятно, можете, но взгляните на эту CorEx идею. Это работает очень хорошо и дает вам возможность направлять группы, предоставляя набор якорных слов (так что вы можете назвать это полуобучаемым обучением).

Вы можете указать это ["протекционизм", "тарифы", "торговые войны", ...] в качестве якорей для одной темы и даже попытаться вставить статьи, не относящиеся к интересующей вас теме, во вторую тема, определяя слова ancor, которые не имеют ничего общего с вашей темой, например ["полицейская защита", "таможенные функции", ...]

Поставляемые ноутбуки действительно превосходны, и вы сможете быстро приступить к работе

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...