Я извлек текст из файла, используя OCR (оптическое распознавание символов), и получил следующую строку:
Lisboa 187
Santo Tirso 8\n\n Porto 137 Vila do Conde
8\n\n Maia
119 Penafiel
7\n\n Vila Nova de Gaia
83 Portimão
7\n\n Oliveira de Azeméis 18 Évora
5\n\n
Я хочу получить список кортежей, каждый из которых является кортежем («название города») , «следующий номер»), например: [(«Лиссабон», «187»), («Санто Тирсо», «8»), («Порту», «137»), ...]
Я написал это выражение: r "([A-ZÁÉÍÓÚ] [\ w () - \] +) ([\ d] +)"
, потому что названия городов могут включать тильды и пробелы , но я получаю («название города после номера название другого города», «номер после второго города»), вот так: («Лиссабон 187 Санто Тирсо», «8»).
Итак : Я хочу использовать \ w +, но исключить все цифры из первой группы (которая будет первым элементом кортежа). Как мне это сделать?