Конвертировать word_tokenize в предложение - PullRequest
1 голос
/ 24 октября 2019

Я новичок в Python nltk

Текущий, у меня есть программа, которая делает word_tokenize из предложения. Затем обрабатывается word_tokenize, который исправляет некоторые заглавные буквы в некоторых существительных. Этот процесс работает нормально, теперь я хочу снова преобразовать обработанный word_tokenize в предложение. Я легко могу сделать это с помощью цикла, и для каждого дисплея мне просто нужно добавить место. Но будут случаи, когда это не будет работать для таких слов, как «это, я, не и т. Д.»потому что word_tokenize сохранить эти слова отдельно. В этом случае мой обработанный word_tokenize будет преобразован в «это, я, не так и т. Д.»

Есть ли функция nltk, которая позволяет word_tokenize идеально подойти к предложению?

1 Ответ

0 голосов
/ 27 октября 2019

В nltk есть TreebankWordDetokenizer, который может восстановить предложение из списка токенов:

from nltk import word_tokenize
tokens = word_tokenize("I'm happy because it's a good book")
print(tokens)
#['I', "'m", 'happy', 'because', 'it', "'s", 'a', 'good', 'book']

from nltk.tokenize.treebank import TreebankWordDetokenizer
reconstructedSentence = TreebankWordDetokenizer().detokenize(tokens)
print(reconstructedSentence)
#I'm happy because it's a good book

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...