Извлечь блок текста между двумя строками, повторить процесс во всем документе - PullRequest
0 голосов
/ 03 октября 2018

Я использую python, чтобы попытаться прочитать текстовый файл и вытащить несколько строк текста между строками.Вот пример:

something something something I dont want
Select and then any length and joins etc of text that I want which could be  multiple lines
: this semicolon is the end of what I want
something something something I dont want again
   Select and then any length and joins etc of text that I want which could be  multiple lines
: this semicolon is the end of what I want

Выберите, где я хочу начать извлечение данных и;вот где я хочу остановиться

Это будет повторяться на протяжении всего 900-страничного документа.

Есть предложения?

1 Ответ

0 голосов
/ 03 октября 2018

Я не совсем уверен, почему бы вам не использовать регулярное выражение (поскольку оно просто решает проблему).

Требуемое регулярное выражение: Select ((?:.*\n)+?):

В основном «Выберите», захватывайте все до новой строки + двоеточия, «двоеточия».

Просто используйте его вместе с re.finditer или re.findall и все будет готово. Тест в regex101 .

...