При попытке использовать токенайзер слов Toktok из NLTK в Python3
string='&& Test & and L&R '
from nltk.tokenize.toktok import ToktokTokenizer
ToktokTokenizer().tokenize(string)
Я получаю следующий вывод:
['&&', 'Test', '&', 'and', 'L&R']
Похоже, это странным образом ускользает от &.
Я использую NLTK версии 3.3 и Python 3.6.4.
Можно догадаться, почему это происходит, и эффективный способ ее решения?
Я знаю, что могу пройти через ответ с
[tok.replace("&","&") for tok in tokenized_sentence]
но это кажется грязным хаком. Я хотел бы знать, есть ли способ не производить этот эффект первым способом.