Предварительная обработка текста для обнаружения двух слов без разделительного пробела (или дефиса) - PullRequest
0 голосов
/ 10 февраля 2020

Допустим, у меня есть текстовый корпус с непоследовательно написанными би-граммами. Примером может быть «би-грамм», «би-грамм», «биграмма». Есть ли какой-нибудь стандартный метод предварительной обработки текста, чтобы нормализовать все это как одно и то же? т.е. заменить все такие вхождения на "биграм". Я должен также упомянуть, что у меня нет предварительных знаний о том, какие именно би-граммы присутствуют в корпусе.

Еще одна вещь, которая меня интересует, - исправить правописание стандартных слов, таких как обычные существительные, легко. Но как насчет исправления правильных существительных? Я предполагаю, что правильное написание встречается чаще, чем неправильное написание - поэтому, возможно, у меня есть серия pandas текста, в которой большинство строк содержат «Калифорнию», но также есть некоторые случаи «Калифонрии» .

...