Question

Допустим, у меня есть текстовый корпус с непоследовательно написанными би-граммами. Примером может быть «би-грамм», «би-грамм», «биграмма». Есть ли какой-нибудь стандартный метод предварительной обработки текста, чтобы нормализовать все это как одно и то же? т.е. заменить все такие вхождения на "биграм". Я должен также упомянуть, что у меня нет предварительных знаний о том, какие именно би-граммы присутствуют в корпусе.

Еще одна вещь, которая меня интересует, - исправить правописание стандартных слов, таких как обычные существительные, легко. Но как насчет исправления правильных существительных? Я предполагаю, что правильное написание встречается чаще, чем неправильное написание - поэтому, возможно, у меня есть серия pandas текста, в которой большинство строк содержат «Калифорнию», но также есть некоторые случаи «Калифонрии» .

Предварительная обработка текста для обнаружения двух слов без разделительного пробела (или дефиса)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Предварительная обработка текста для обнаружения двух слов без разделительного пробела (или дефиса)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы