Как добавить разделитель ':' в nltk.sent_tokenize? - PullRequest
0 голосов
/ 20 июня 2019

Я собираюсь использовать nltk.sent_token, чтобы завершить свою задачу. но я понятия не имею, как добавить новый разделитель, такой как ':' или '%', к условиям предложения.

например.

'Обработка естественного языка \ nИз Википедии, свободной энциклопедии. ааа. ABC: Он плохой мальчик: Помидор, это здорово? Не так вкусно! Вы так не думаете? \ N '

from nltk import sent_tokenize

sample = '\nNatural language processing\nFrom Wikipedia, the free encyclopedia. aaa.    Abc: He is bad boy: Tomato is it healty? Unnnn Not so tasty! Dont you think so?\n'

sample_token = sent_tokenize(sample)

sample_token

# result

['\nNatural language processing\nFrom Wikipedia, the free encyclopedia.',
 'aaa.',
 'Abc: He is bad boy: Tomato is it healty?',
 'Unnnn Not so tasty!',
 'Dont you think so?']

# what I want 

['\nNatural language processing\nFrom Wikipedia, the free encyclopedia.',
 'aaa.',
 'Abc: ',
 'He is bad boy: Tomato is it healty?',
 'Unnnn Not so tasty!',
 'Dont you think so?']

извините, странное предложение, Я хочу добавить (разделитель ':' + пробел + заглавная буква) как триггер разделения nltk.sent_token.

подскажите пожалуйста как это добавить! спасибо !!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...