Как токенизировать слово, содержащее пунктуацию, используя NLTK - PullRequest
0 голосов
/ 06 января 2020

У меня есть PlainTextCorpusReader, и текст объявления о вакансиях вычеркнут из Интернета. Я хочу лишить навыки, используя NLTK.

Но я потерпел неудачу на первом препятствии, так как читатель маркирует слово 'C#' как 'C', '#'.

Я хочу отфильтровать шум, такой как стоп-слова и знаки препинания, так что это проблема.

Как мне обойти это?

1 Ответ

0 голосов
/ 07 января 2020

Ответ - либо очистить строку перед использованием программы чтения корпуса, используя метод replace, чтобы заменить 'C#' чем-то вроде 'CSharp', либо обучить токенизатор.

...