Необходимо изменить мое регулярное выражение, чтобы разделить строку на каждой новой строке - PullRequest
0 голосов
/ 29 марта 2019

У меня есть строка с предложениями, которые я хотел разделить на отдельные предложения.Строка имеет много тонкостей, которые трудно уловить и разделить.Я также не могу использовать библиотеку nltk.Мое текущее регулярное выражение делает лучшую работу среди всех других, которые я пробовал, но пропускает некоторые предложения, которые начинаются с новой строки (подразумевается новый абзац).Мне было интересно, есть ли простой способ изменить текущее выражение, чтобы также разделить, когда есть новая строка.

import re
file = open('data.txt','r')
text = file.read()
sentences = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)

Текущее регулярное выражение выглядит следующим образом:

sentences = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)

По сути, мне нужно изменить выражение, чтобы оно также разделялось при появлении новой строки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...