Мне нужно идентифицировать все сокращения и переносы слов в моих предложениях, чтобы начать. Они должны быть напечатаны по мере их идентификации. Мой код, кажется, не работает должным образом для этой идентификации.
import re
sentence_stream2=df1['Open End Text']
for sent in sentence_stream2:
abbs_ = re.findall(r'(?:[A-Z]\.)+', sent) #abbreviations
hypns_= re.findall(r'\w+(?:-\w+)*', sent) #hyphenated words
print("new sentence:")
print(sent)
print(abbs_)
print(hypns_)
Одно из предложений в моем корпусе: DevOps с API-интерфейсами и управляемой событиями архитектурой с использованием облачной среды Data Analytics Self-service BI
Вывод для этого:
new sentence:
DevOps with APIs & event-driven architecture using cloud Data Analytics environment Self-service BI
[]
['DevOps', 'with', 'APIs', 'event-driven', 'architecture', 'using', 'cloud', 'Data', 'Analytics', 'environment', 'Self-service', 'BI']
ожидаемый вывод:
new sentence:
DevOps with APIs & event-driven architecture using cloud Data Analytics environment Self-service BI
['APIs','BI']
['event-driven','Self-service']