Поиск конкретных слов в таблице частот - PullRequest
0 голосов
/ 28 декабря 2018

Я изо всех сил пытался найти конкретные слова в моей таблице частот, содержащей несколько названий университетов и компаний.Я хотел бы разделить эту таблицу на 2 таблицы (или список) из 1- «Университетов» и 2- «Компаний».Для этого я подумываю найти конкретные слова «Университет», «Школа», «Колледж» и записать их все в таблицу (или список) под названием «Университеты».Остальная часть записей таблицы (предположительно, имена компаний) сформирует 2-ю таблицу (или список) с именем «Компании»

. Я посмотрел на это и обнаружил, что grep («Университет», OriginalFrequencyTable) isn; tза работой.Я полагаю, причина в том, что grep работает с символьным вектором, а не с таблицей (?!)

OriginalFrequencyTable: (number in front of names is frequency of occurrence)

Loyalist College 2 
Globe Inc 4
University Of Central Arkansas 3
Anderson University 2
Bridgewater State College 1
Allegheny College 1
Cs Technologies 3
Healthpartners 1

Expected result (are 2 tables named, "Universities" and "Companies"):

--------------1st table "Universities":--------------
Loyalist College 2 
University Of Central Arkansas 3
Anderson University 2
Bridgewater State College 1
Allegheny College 1

--------------2nd table "Companies":--------------
Globe Inc 4
Cs Technologies 3
Healthpartners 1

Любая помощь высоко ценится, Большое спасибо заранее,

Ответы [ 2 ]

0 голосов
/ 28 декабря 2018

Мы можем использовать split для разбиения data.frame на list из data.frame

library(stringr)
lst1 <- split(df, str_detect(df$Name, "\\b(College|University)\\b"))
0 голосов
/ 28 декабря 2018

Один базовый вариант R будет использовать grepl и искать ключевые слова College или University в качестве маркеров школы:

Universities <- df[grepl("\\b(College|University)\\b", df$Name), ]
Companies <- df[!grepl("\\b(College|University)\\b", df$Name), ]

Я не уверен, что ваши столбцы (ы)), я предположил, что есть столбец Name, содержащий названия компаний и университетов.Если для частоты существует фактический отдельный столбец, то вышеприведенное решение все еще должно работать.Это также должно работать, если у вас есть имя и частота вместе в одном столбце.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...