Использование Python 3.7:
У меня есть документ PDF, который я преобразовываю в необработанный текст с использованием textract. PDF состоит из оглавления, а затем серии вопросов и ответов, например:
-TO C:
содержание TO C
- Вопрос 1:
содержание вопроса 1
- Ответ 1:
содержание ответа 1
-Вопрос 2:
содержание вопроса 2
-Ответ 2:
содержание ответа 2
et c ...
Мне удалось преобразовать PDF в текст:
import textract
text = textract.process(PATHtoPDF, encoding='ascii')
Мой вопрос: как Можно ли перебрать текст, чтобы выделить вопрос и соответствующий ответ, чтобы получить вопрос и ответ в одной строке?
Я пытался использовать NLTK для поиска фразы «Вопрос 1:», но я не мог понять, как отделить весь текст от «Вопрос 1:» и «Вопрос 2:».
Я также попытался преобразовать PDF на HTML, чтобы попытаться сохранить заголовки вопросов и ответы, но есть много других пунктов, помеченных как заголовки со словом «Вопрос: 1» из Оглавления.
Есть мысли о том, что можно сделать здесь?
Спасибо!