У меня есть PDF, который я прочитал через пакет Tika в python. Кажется, Тика может читать только весь PDF, и мне нужно прочитать только первую страницу.
Мой код выглядит так:
from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']
Я бы хотел разделить необработанный текст по ключевым словам start и end. Как мне это сделать?