Я работаю над очисткой набора данных, состоящего из 1М имен. Очистка выполняется с помощью функции, включающей около 40 greps, таких как name=gsub("Johnmichael", "John Michael",name,ignore.case=TRUE)
и name=gsub("Mihcael", "Michael",name,ignore.case=TRUE)
. В настоящее время я использую функцию очистки прямо так:
contacts$first_name=clean_name(contacts$first_name)
My Проблема в том, что мой код очень медленный, поскольку он применяет функцию ко всему вектору по одному. Я пытаюсь найти способ использовать функцию параллельно для каждой строки, я пробовал sapply, но я не вижу каких-либо улучшений. Любой совет?