Я создаю блокнот Jupyter для очистки большого количества романов с помощью кода регулярного выражения, который я тестирую в Sublime.Во многих моих текстах есть фраза «оцифровано Google», потому что именно там я получил PDF-файл, по которому я прошел Оптическое распознавание символов.Я хочу удалить все предложения, которые содержат фразу «Оцифрованный», или, скорее, «gitized», поскольку первая часть не всегда корректно транскрибируется.
Когда я использую эту фразу в Sublimes «функция замены», я получаюименно те результаты, которые я хочу получить:
^.*igitized.*$
Однако, когда я пытаюсь использовать метод re.sub в своем блокноте Jupyter, который работает с некоторыми другими фразами, строки «Оцифровано Google» неправильно определеныи заменено на «ничто».
text = re.sub(r'^.*igitized.*$', '', text)
Чего мне не хватает?