Я собираюсь использовать nltk.sent_token, чтобы завершить свою задачу.
но я понятия не имею, как добавить новый разделитель, такой как ':' или '%', к условиям предложения.
например.
'Обработка естественного языка \ nИз Википедии, свободной энциклопедии. ааа. ABC: Он плохой мальчик: Помидор, это здорово? Не так вкусно! Вы так не думаете? \ N '
from nltk import sent_tokenize
sample = '\nNatural language processing\nFrom Wikipedia, the free encyclopedia. aaa. Abc: He is bad boy: Tomato is it healty? Unnnn Not so tasty! Dont you think so?\n'
sample_token = sent_tokenize(sample)
sample_token
# result
['\nNatural language processing\nFrom Wikipedia, the free encyclopedia.',
'aaa.',
'Abc: He is bad boy: Tomato is it healty?',
'Unnnn Not so tasty!',
'Dont you think so?']
# what I want
['\nNatural language processing\nFrom Wikipedia, the free encyclopedia.',
'aaa.',
'Abc: ',
'He is bad boy: Tomato is it healty?',
'Unnnn Not so tasty!',
'Dont you think so?']
извините, странное предложение,
Я хочу добавить (разделитель ':' + пробел + заглавная буква) как триггер разделения nltk.sent_token.
подскажите пожалуйста как это добавить!
спасибо !!