Как извлечь много заголовков из документа - PullRequest
0 голосов
/ 07 октября 2019

Я работаю над проектом, в котором мне нужно извлечь пару названий тем из документа в формате PDF, и эти заголовки будут использоваться в качестве ключевых слов для моего поиска. Таким образом, есть ли алгоритмы, которые могли бы помочь решить эту проблему?

1 Ответ

0 голосов
/ 10 октября 2019

Для моделирования темы без присмотра можно использовать скрытое выделение дирихле (LDA), см.: https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-latent-dirichlet-allocation-437c81220158

Или вы также можете использовать классификацию текста по нескольким меткам, если вы хотите обучение под наблюдением. Вы можете попробовать простую полиномиальную логистическую регрессию с помощью sklearn, см. https://scikit -learn.org / stable / modules / generate / sklearn.linear_model.LogisticRegression.html или другие классификаторы, такие как Наивный Байес, SVMили нейронная сеть, такая как Conv1D

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...