Я хочу разделить тексты на предложения.
смотря в переполнении стека я нашел:
С НЛТК
from nltk.tokenize import sent_tokenize
text="""Hello Mr. Smith, how are you doing today? The weathe is great, and city is awesome. The sky is pinkish-blue. You shouldn't eat cardboard"""
tokenized_text=sent_tokenize(text)
print(tokenized_text)
С ПРОСТРАНСТВОМ
from spacy.lang.en import English # updated
raw_text = 'Hello, world. Here are two sentences.'
nlp = English()
nlp.add_pipe(nlp.create_pipe('sentencizer')) # updated
doc = nlp(raw_text)
sentences = [sent.string.strip() for sent in doc.sents]
Вопрос в том, что в фоновом режиме для spacy нужно делать по-другому с так называемой create_pipe.
Приговоры важны для обучения ваших собственных встраиваний слов для НЛП. Должна быть причина, по которой spaCy не включает прямо из коробки токенизатор предложений.
Спасибо.
ПРИМЕЧАНИЕ. Имейте в виду, что просто .split (.) Не работает, в тексте есть несколько десятичных чисел и токены другого типа, содержащие '.'