Я знаю, как разделить предложение с помощью NLTK PunktSentenceTokenizer.
Однако у меня есть еще одна просьба: у меня есть текст, преобразованный из PDF, где разрыв страницы разделяет предложения. Есть ли способ использовать NLTK, чтобы определить, является ли конец строки границей предложения или нет? если это не граница предложения, я могу объединить строку со следующей строкой.
Например, вот мои строки:
"У меня есть преобразованный текст" "Есть ли способ сохранитьчеловеческий род? "
Первый не конец предложения, а второй.