Я пытаюсь извлечь некоторые необработанные строки, используя модуль re в python. Конец секции, подлежащей извлечению, идентифицируется повторяющимся словом (повторяется несколько раз). Текущие усилия всегда фиксируют последнее совпадение повторяющегося слова. Как я могу изменить это поведение?
Текстовый файл был извлечен из PDF-файла. Весь PDF хранится в виде одной строки. Общее форматирование строки приведено ниже:
* "*** Начало примечаний: коллекция буквенно-цифровых слов и символов EndofsectionTopic A: строка слов Endofsection" *
Предполагаемая строка для захвата: "Коллекция буквенно-цифровых слов и символов"
Попытка решения, использованная в этой ситуации, была: "
re.compile (r "* {3} Начало заметок: (. +) \ sEndofsection")
Эта попытка стремится соответствовать целой строке, а не просто «коллекции буквенно-цифровых слов и символов», как предполагалось.
Один из возможных подходов - разделить с помощью Endofsection, а затем извлечь строку только из первого раздела - это работает, но я надеялся найти более элегантное решение с использованием re.compile.