У меня есть список тегов stackoverflow: [javascript, node.js, c ++, amazon-s3, ....].
Я хочу обозначить вопрос stackoverflow: «что я предпочитаю?javascript, node.js, c ++ или amazon-S3? Это пустышка. "
, и я хочу, чтобы nltk токенизировал" node.js "в один токен:" node.js ", а не" node "и'js'.
Как сказать nltk не разбивать слово, если оно есть в моем списке тегов?
Я прочитал этот возможный дубликат, и вопрос кажетсябыть таким же, но ответ на основе Multi Word Expression Tokenizer не удовлетворяет мою потребность.
На самом деле, если я использую это решение, я думаю, мне придется реконструировать вручнуювсе теги, например:
tokenizer = nltk.tokenize.MWETokenizer()
tokenizer.add_mwe('Python', '-', '3', '.', 'x)
Мне нужно, чтобы все существующие теги были "непокрытыми"