Я пытаюсь токенизировать свои тексты с помощью функции "nltk.word_tokenize()
", но это разделит слова, связанные с "_
".
Например, текст "A,_B_C! is a movie!
" будетразделить на:
['a', ',', '_b_c', '!', 'is','a','movie','!']
Результат, который я хочу получить:
['a,_b_c!', 'is', 'a', 'movie', '!']
Мой код:
import nltk
text = "A,_B_C! is a movie!"
nltk.tokenize(text.lower())
Любая помощь будет признательна!