Как токенизировать десятичные числа через.(Точка) - PullRequest
0 голосов
/ 13 мая 2019

Я использую NLTK для токенизации текстового файла, и в этом типе файла у меня есть информация о возрасте, которая обычно находится в формате десятичного числа, разделенного точкой (как, например, 36.11).

Теперь, когда я токенизирую текст, я получаю что-то вроде этого:

[ '36', '.', '11']

Я хочу знать, как сделать так, чтобы числа, как, например, 36.11, обрабатывались как один токен.

Редактировать: я использую PlaintextCorpusReader для чтения нескольких текстовых файлов, разделяю их с помощью corpus.words () и соединяю их вместе. Поэтому я не могу использовать word_tokenize (или хотя бы не знаю, как это сделать).

corpus_root = '/home/user/Documents/CC/November/01-11-2018/Texts'
corpus = PlaintextCorpusReader(corpus_root, '.*')
palavras = corpus.words()
wordlist = ["".join(word) for word in palavras]

1 Ответ

0 голосов
/ 13 мая 2019

Это зависит от того, какой токенизатор вы используете в nltk.

Если вы используете коэффициент де word_tokenize, этого не должно быть:

>>> from nltk import word_tokenize
>>> word_tokenize('36.11')
['36.11']
>>> word_tokenize('This is the 36.11 number')
['This', 'is', 'the', '36.11', 'number']
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...