Мне нужно извлечь только текстовую часть и вспомогательный номер в конце строк, из:
'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor?::enim',
'9. Ut enim ad minima veniam, quis nostrum exercitationem.2',
'. . . . . 9.1 dolore magnam aliquam quaerat',
'. . . . . 9.1 ed quia consequuntur magni.1',
'. . . . . 9.2 Quis autem vel eum iure reprehenderit.2'
вот так:
'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor?::enim',
'Ut enim ad minima veniam, quis nostrum exercitationem.2',
'dolore magnam aliquam quaerat',
'ed quia consequuntur magni.1',
'Quis autem vel eum iure reprehenderit.2'
Возможно ли это сделать с одиночный re.findall (r '()', item) в python регулярное выражение? Похоже, я не могу «отделить» числа в начале строки от номера в конце строки.
Я пробовал, например, с помощью следующего кода:
string ='. . . . . 9.2 Quis autem vel eum iure reprehenderit.2'
string = re.findall(r'([a-öA-Ö0-9/:._]+)',string)
string = ' '.join( list(filter(lambda x: x != '.', string)))
Это дает:
'9.2 Quis autem vel eum iure reprehenderit.2'
Но это не удаляет переднее число, является сложным, а также разбивает исходный текст и объединяется с пробелом между ними. Я хотел бы обрезать строку там, где начинается текст, и на самом деле не хочу прикасаться к исходной части текста, например, между словами иногда могут быть два пробела, но они должны быть сохранены как есть.