Я пытаюсь создать регулярное выражение, которое находит предложения с минимальной длиной.
На самом деле мои условия таковы:
- в последовательности должно быть не менее 5 слов
- слова в последовательности должны отличаться
- за последовательностью должен следовать какой-то знак пунктуации.
До сих пор я пытался
^(\b\w*\b\s?){5,}\s?[.?!]$
Если мой образец текста:
This is a sentence I would like to parse.
This is too short.
Single word
Not not not distinct distinct words words.
Another sentence that I would be interested in.
Я бы хотел сопоставить строки 1 и 5.
Я использую python повторная библиотека. Я использую regex101 для тестирования, и кажется, что приведенное выше регулярное выражение выполняет довольно много работы в отношении возврата, поэтому я полагаю, что те, кто знает в regex, могут быть немного потрясены (мои извинения).