Python: извлечение абзаца между двумя номерами разделов - PullRequest
0 голосов
/ 24 февраля 2019

Я изучаю регулярное выражение и извлекаю абзац между двумя номерами разделов.Любые комментарии высоко ценятся!

Немного информации о том, чего я хочу достичь.Я хочу извлечь раздел о конфиденциальности из договора займа.Следовательно, мой абзац начнется с номера раздела и слова «Конфиденциальность».Он остановится на следующем номере раздела.

Это мой код:

with open('filename.txt') as f:
confi=  re.findall(r'\d{1,2}\.\d{1,2}\s*Confidentiality\.\s*(.*?)\d{1,2}\.\d{1,2}',f.read(), re.DOTALL)

Это пример абзаца:

13.18 Конфиденциальность.В случае, если какой-либо из Заемщиков предоставляет Агенту, Агенту плана этажа или любому Кредитору (…) обязательство доверия в соответствии с настоящим Разделом 13.18 , не распространяется на такие части информации (…) участникови потенциальные правопреемники и участники, которые соглашаются соблюдать условия настоящего Раздела 13.18, (…) такую ​​информацию, которая навязана ему в соответствии с настоящим Соглашением.13.19 Отказ от суда присяжных.

Однако кодекс не охватывает абзац между 13.18 и 13.19, а прямо в «Разделе 13.18» в середине абзаца.Сложность заключается в том, что номер раздела не всегда остается 13,18, но варьируется в зависимости от различных текстовых файлов.Я ценю ваш комментарий!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...