Перебирайте необработанный текст в Python, чтобы разделить вопросы и ответы в PDF - PullRequest
0 голосов
/ 30 апреля 2020

Использование Python 3.7:

У меня есть документ PDF, который я преобразовываю в необработанный текст с использованием textract. PDF состоит из оглавления, а затем серии вопросов и ответов, например:

-TO C:

содержание TO C

- Вопрос 1:

содержание вопроса 1

- Ответ 1:

содержание ответа 1

-Вопрос 2:

содержание вопроса 2

-Ответ 2:

содержание ответа 2

et c ...

Мне удалось преобразовать PDF в текст:

import textract
text = textract.process(PATHtoPDF, encoding='ascii')

Мой вопрос: как Можно ли перебрать текст, чтобы выделить вопрос и соответствующий ответ, чтобы получить вопрос и ответ в одной строке?

Я пытался использовать NLTK для поиска фразы «Вопрос 1:», но я не мог понять, как отделить весь текст от «Вопрос 1:» и «Вопрос 2:».

Я также попытался преобразовать PDF на HTML, чтобы попытаться сохранить заголовки вопросов и ответы, но есть много других пунктов, помеченных как заголовки со словом «Вопрос: 1» из Оглавления.

Есть мысли о том, что можно сделать здесь?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...