Я пытаюсь заставить бота ползти по тексту и с высокой степенью точности впитывать все подходящие существительные / фразы. Итак, все, что написано с заглавной буквы в середине предложения, где все, что написано с заглавной буквы подряд, считается частью одной и той же фразы (и записи в списке).
Пока у меня есть:
tag_string = re.findall('([a-zA-Z]+)\s([A-Z][a-z]*)\s([a-zA-Z]+)', in_string)
Который имеет проблема с собственными существительными непосредственно предшествующих периодов. Также принимает окружающие строчные слова.
И у меня также есть:
#tag_string = re.findall('([a-zA-Z]+)\s([A-Z][a-z]*)(\s([a-zA-Z]+)|\.)', in_string)
, который принимает еще больше окружающих строчных слов, но менее восприимчив к проблеме предыдущего периода. Я был в этом часами. Кто-нибудь видит, что я делаю не так?