Я обрабатываю файл и нашел слово, которое связано точкой, я думаю, что это ошибка, и я хочу ее исправить, поэтому ищу регулярное выражение для этого.
['<repdns text="boys.aussi" />']
['<repdns text="interpretation.une" />']
['<repdns text="catastrophe.michelle" />']
['<repdns text="paquerettes.ewan" />']
['<repdns text="amour.hugh" />']
Я на самом деле читаю файл и использую treetagger, чтобы получить лемму, но появляются ошибки, подобные приведенным выше, поэтому мне нужно исправить их перед использованием функции treetagger. Я застрял на том, какое регулярное выражение использовать, потому что я не хочу, чтобы слово с '.com' или '.org' отделялось
a = [' boys.aussi', 'interpretation.une', 'amour.hugh', 'amy.com', 'frenchemabassy.net']
alphabet = "([a-z][...])"
alphabets = "([A-Za-z])"
prefixes = "(Mr|St|Mrs|Ms|Dr)[.]"
suffixes = "(Inc|Ltd|Jr|Sr|Co)[.]"
starters = "(M|Mr|Mme|Sr|Dr)"
acronyms = "([A-Z][.][A-Z][.](?:[A-Z][.])?)"
websites = "[.](com|net|org|io|gov)"
digits = "([0-9])"
# sépare les phrases
def normalize(text): # do_lower=False):
text = re.sub(alphabets + "[.]" + alphabets,)
return text
normalize(a)
ожидание
a = [' boys. aussi', 'interpretation. une', 'amour. hugh', 'amy.com', 'frenchemabassy.net']