У меня есть такие тексты, как этот:
text = 'this is a sentence, it has 1 number in it, and another one 123 here. we want to select n8m3r1c-aa words and phrases - until the punctuation. this is some phr4se!1 with text.'
Моя цель - выбрать фрагменты, начиная с любого токена / слова, в котором есть di git и пробел перед ним. Выбор должен происходить до следующей найденной пунктуации, но не до знаков препинания внутри токена.
Ожидаемый результат:
1 number in it
123 here
n8m3r1c-aa words and phrases
phr4se!1 with text
Мой текущий подход:
re.findall(r'\s(\d.+?)[.,!]', text)
Но это находит только:
1 number in it
123 here
Я немного застрял, начиная выбор с токенов, которые не только начинаются с di git, но также содержат di git. Буду признателен за любую помощь и предложения!