В R у меня есть столбец с текстом. Как я могу написать скрипт на R, который подсчитывает частоту указанных c слов? - PullRequest
0 голосов
/ 01 апреля 2020

Текстовый столбец может содержать до 100 букв для каждой записи. Как я могу написать скрипт, который распознает слова «Одобрено» или «Отклонено». Иногда слово будет «-Approved», « Approved », «Approved» или «Approve». Я хочу, чтобы он учитывал каждый сценарий с функцией типа «НРАВИТСЯ».

Есть два слова, которые я ищу, так что «ИЛИ» может быть применимо к этому в отличие от диапазона.

1 Ответ

1 голос
/ 01 апреля 2020

R имеет пару функций сходства текста, agrep и agrepl, которые похожи на grep и grepl в возврате вектора, когда задан вектор. Функция agrepl является логической и имеет ту же длину, что и входные данные, поэтому она лучше работает в таких случаях:

 agrepl("Approved", df$text_col) | agrepl("Rejected", df$text_col)

. Это можно использовать для логического индексирования совпадающих строк в кадре данных. Или вы можете сложить логический вектор, чтобы получить счет. Предложение: отредактируйте свой вопрос, используя пример для демонстрации.

Существуют дополнительные параметры, которые можно использовать для регулировки плотности приблизительного соответствия.

...