Я пытаюсь разобрать текст из документа с помощью регулярных выражений.Документ содержит другую структуру, то есть раздел 1.2, раздел (1).Ниже регулярное выражение может анализировать текст с десятичной запятой, но не для ().
Любое предложение по обработке содержимого, начинающееся с ().
Например:
import re
RAW_Data = '(4) The Governor-General may arrange\n with the Chief Minister of the Australian Capital Territory for the variation or revocation of an \n\narrangement in force under subsection (3). \nNorthern Territory \n (5) The Governor-General may make arrangements with the \nAdministrator of the Northern \nTerritory with respect to the'
f = re.findall(r'(^\d+\.[\d\.]*)(.*?)(?=^\d+\.[\d\.]*)', RAW_Data,re.DOTALL|re.M|re.S)
for z in f:
z=(''.join(z).strip().replace('\n',''))
print(z)
Ожидаемый результат:
(4) Губернатор-Генерал может договориться с главным министром австралийской столичной территории об изменении или отзыве действующего соглашения в соответствии с подразделом
(3) Северная территория
(5) Генерал-губернатор может сделатьдоговоренности с администратором Северной территории в отношении "