У меня есть PlainTextCorpusReader
, и текст объявления о вакансиях вычеркнут из Интернета. Я хочу лишить навыки, используя NLTK.
Но я потерпел неудачу на первом препятствии, так как читатель маркирует слово 'C#' как 'C', '#'.
Я хочу отфильтровать шум, такой как стоп-слова и знаки препинания, так что это проблема.
Как мне обойти это?