Как очистить данные с орфографическими ошибками - PullRequest
1 голос
/ 20 марта 2020

У меня есть данные, как показано ниже:

Carepnter
Carpentor
Labourer
Labor
Labour
Housewife
House Wife
housewife.

Я хочу очистить данные и исправить орфографические ошибки, но не вручную, потому что это огромные данные. Из-за орфографических ошибок эти 50/60 профессий стали около 2000 года.

1 Ответ

0 голосов
/ 20 марта 2020

Вы должны найти строки, которые близки к фактическому занятию, например, плотник. Затем вы можете попытаться найти ближайшие n-совпадения с ним.

Другой вопрос здесь также касается поиска похожих строк (Python: найти ближайшую строку (из списка) к другой строке ) и решения из ответов для вас могут быть:

  1. difflib.get_close_matches

  2. Корректор правописания

...