@ Комментируя Gagravarr относительно XHTML, я обнаружил, что при чтении файла у Тики был xmlContent
анализ. Я использовал его для захвата формата xml и использовал regex для его захвата.
Это сработало для меня:
parsed_data_full = parser.from_file(file_name,xmlContent=True)
parsed_data_full = parsed_data_full['content']
Существует начало и конец для каждого разделителя страниц, который начинается с "<div"
и заканчивается "</div>"
первым появлением. В основном написал небольшой код, чтобы захватить подстроки между 2 подстроками и сохранить в переменную в соответствии с моими конкретными требованиями.