Я использую NLTK для токенизации текстового файла, и в этом типе файла у меня есть информация о возрасте, которая обычно находится в формате десятичного числа, разделенного точкой (как, например, 36.11).
Теперь, когда я токенизирую текст, я получаю что-то вроде этого:
[ '36', '.', '11']
Я хочу знать, как сделать так, чтобы числа, как, например, 36.11, обрабатывались как один токен.
Редактировать: я использую PlaintextCorpusReader для чтения нескольких текстовых файлов, разделяю их с помощью corpus.words () и соединяю их вместе. Поэтому я не могу использовать word_tokenize (или хотя бы не знаю, как это сделать).
corpus_root = '/home/user/Documents/CC/November/01-11-2018/Texts'
corpus = PlaintextCorpusReader(corpus_root, '.*')
palavras = corpus.words()
wordlist = ["".join(word) for word in palavras]