Question

У меня есть PlainTextCorpusReader, и текст объявления о вакансиях вычеркнут из Интернета. Я хочу лишить навыки, используя NLTK.

Но я потерпел неудачу на первом препятствии, так как читатель маркирует слово 'C#' как 'C', '#'.

Я хочу отфильтровать шум, такой как стоп-слова и знаки препинания, так что это проблема.

Как мне обойти это?

Charlie Benger-Stevenson · Answer 1 · 07 января 2020

Ответ - либо очистить строку перед использованием программы чтения корпуса, используя метод replace, чтобы заменить 'C#' чем-то вроде 'CSharp', либо обучить токенизатор.

Как токенизировать слово, содержащее пунктуацию, используя NLTK

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как токенизировать слово, содержащее пунктуацию, используя NLTK

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы