Question

Я работаю над очисткой набора данных, состоящего из 1М имен. Очистка выполняется с помощью функции, включающей около 40 greps, таких как name=gsub("Johnmichael", "John Michael",name,ignore.case=TRUE) и name=gsub("Mihcael", "Michael",name,ignore.case=TRUE)

. В настоящее время я использую функцию очистки прямо так:

contacts$first_name=clean_name(contacts$first_name)

My Проблема в том, что мой код очень медленный, поскольку он применяет функцию ко всему вектору по одному. Я пытаюсь найти способ использовать функцию параллельно для каждой строки, я пробовал sapply, но я не вижу каких-либо улучшений. Любой совет?

Austin Foster · Answer 1 · 30 апреля 2020

2

Установите OpenBLAS в R в Windows x64

Откройте URL http://sourceforge.net/projects/openblas/files/

Откройте папку с последней версией

загрузить OpenBLAS-v0.2.13-Win64-int32.zip и mingw64_dll.zip

Распаковать файл "OpenBLAS-v0.2.13-Win64-int32.zip" найти "libopenblas.dll" и переименуйте этот файл в «Rblas.dll», скопируйте файл по следующему пути: «\ R \ R-3.1.2 \ bin \ x64» (не забудьте сделать резервную копию). Распакуйте «mingw64_dll.zip» и скопируйте всю DLL в тот же путь "\ R \ R-3.1.2 \ bin \ x64"

R - Эффективная очистка данных с помощью пользовательских функций

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R - Эффективная очистка данных с помощью пользовательских функций

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы