Определить, является ли текстовый фрагмент из простора полным предложением - PullRequest
0 голосов
/ 21 мая 2018

Мы работаем над предложениями, извлеченными из PDF.Проблема состоит в том, что он включает заголовок, нижние колонтитулы, оглавление и т. Д. Есть ли способ определить, является ли предложение, которое мы получаем при передаче документа в spacy, полным предложением.Есть ли способ отфильтровать части предложений, такие как названия

1 Ответ

0 голосов
/ 09 ноября 2018

Попробуйте найти первый кусок существительного в каждом предложении.Это обычно (но не всегда) является заглавной темой предложения.

sentence_title = [chunk.text for chunk in doc.noun_chunks][0]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...