Я изучаю регулярное выражение и извлекаю абзац между двумя номерами разделов.Любые комментарии высоко ценятся!
Немного информации о том, чего я хочу достичь.Я хочу извлечь раздел о конфиденциальности из договора займа.Следовательно, мой абзац начнется с номера раздела и слова «Конфиденциальность».Он остановится на следующем номере раздела.
Это мой код:
with open('filename.txt') as f:
confi= re.findall(r'\d{1,2}\.\d{1,2}\s*Confidentiality\.\s*(.*?)\d{1,2}\.\d{1,2}',f.read(), re.DOTALL)
Это пример абзаца:
13.18 Конфиденциальность.В случае, если какой-либо из Заемщиков предоставляет Агенту, Агенту плана этажа или любому Кредитору (…) обязательство доверия в соответствии с настоящим Разделом 13.18 , не распространяется на такие части информации (…) участникови потенциальные правопреемники и участники, которые соглашаются соблюдать условия настоящего Раздела 13.18, (…) такую информацию, которая навязана ему в соответствии с настоящим Соглашением.13.19 Отказ от суда присяжных.
Однако кодекс не охватывает абзац между 13.18 и 13.19, а прямо в «Разделе 13.18» в середине абзаца.Сложность заключается в том, что номер раздела не всегда остается 13,18, но варьируется в зависимости от различных текстовых файлов.Я ценю ваш комментарий!