У меня есть строка с предложениями, которые я хотел разделить на отдельные предложения.Строка имеет много тонкостей, которые трудно уловить и разделить.Я также не могу использовать библиотеку nltk.Мое текущее регулярное выражение делает лучшую работу среди всех других, которые я пробовал, но пропускает некоторые предложения, которые начинаются с новой строки (подразумевается новый абзац).Мне было интересно, есть ли простой способ изменить текущее выражение, чтобы также разделить, когда есть новая строка.
import re
file = open('data.txt','r')
text = file.read()
sentences = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
Текущее регулярное выражение выглядит следующим образом:
sentences = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', text)
По сути, мне нужно изменить выражение, чтобы оно также разделялось при появлении новой строки.