Прежде всего - мой код работает. Это просто медленно, и мне интересно, если я что-то упустил, что сделает его более эффективным. Я анализирую PDF-файлы с помощью python (и да, я знаю, что этого следует избегать, если это вообще возможно).
Моя проблема в том, что я должен сделать несколько довольно сложных подстановок регулярных выражений - и когда я говорю подстановка, я действительно имею в виду удаление. Я сделал те, которые сначала удаляют большинство данных, чтобы последующим выражениям не нужно было анализировать слишком много текста, но это все, что я могу придумать, чтобы ускорить процесс.
Я довольно плохо знаком с Python и регулярными выражениями, поэтому вполне возможно, что это можно сделать лучше.
Спасибо за чтение.
regexPagePattern = r"(Wk)\d{1,2}.\d{2}(\d\.\d{1,2})"
regexCleanPattern = r"(\(continued\))?((II)\d\.\d{1,2}|\d\.\d{1,2}(II)|\d\.\d{1,2})"
regexStartPattern = r".*(II)(\s)?(INDEX OF CHARTS AFFECTED)"
regexEndPattern = r"(II.)\d{1,5}\((P|T)\).*"
contentRaw = re.sub(regexStartPattern,"",contentRaw)
contentRaw = re.sub(regexEndPattern,"",contentRaw)
contentRaw = re.sub(regexPagePattern,"",contentRaw)
contentRaw = re.sub(regexCleanPattern,"",contentRaw)