Я читаю PDF, используя textract.Внутри PDF есть несколько заголовков.Вот некоторые примеры:
- 5 \ n \ n A
- 5.1 \ n \ n AB
- 5.1.1 \ n \ n AB
- 5.1.1 \ n \ n A / B ()
В общем:
(цифровая цифра), затем: (два раза \ n), затем: (словасодержащий буквенно-цифровую цифру случайное число раз) и, наконец, разрыв строки
Обратите внимание, что я точно публикую строку, когда получаю вывод после чтения с использованием textract.Moreover, следовательно, это названия,после разрыва строки начинается абзац.В настоящее время я просто хочу извлечь заголовки из PDF.
Исходный текст (например, цель:):
1 Человек
Человек - это человек ...
1.1 Люди из Азии / Европы
............
1.1.1 Человек из Азии / Европы
.........
Вывод:
1 Человек
1.1 Люди из Азии / Европы
1.1.1 Человек из Азии /Европа
Любая помощь / предложение приветствуется.И было бы действительно замечательно, если бы было дано объяснение для выражения регулярного выражения.