Разделите и посчитайте уникальное значение - PullRequest
0 голосов
/ 30 апреля 2018

Я хотел бы найти номер уникального названия компании из фрейма данных:

/organization/-fame
/ORGANIZATION/-QOUNTER
/organization/-qounter
/ORGANIZATION/-THE-ONE-OF-THEM-INC-
/ORGANIZATION/0NDINE-BIOMEDICAL-INC
/organization/0ndine-biomedical-inc

Я разделил название компании выше с помощью функции split,

split_prod <- str_split_fixed(rounds2$company_permalink,"/", 4)

и преобразован в новый фрейм данных:

companyname <- data.frame(split_prod, stringsAsFactors = FALSE)

Я получил вывод в четырех столбцах, как указано ниже:

    X1     X2                     X3                   X4
        organization        -fame
        ORGANIZATION        -QOUNTER
        organization        -qounter
        ORGANIZATION        -THE-ONE-OF-THEM-INC-
        organization        0-6-com
        ORGANIZATION        004-TECHNOLOGIES
        organization        01games-technology
        ORGANIZATION        0NDINE-BIOMEDICAL-INC
        organization        0ndine-biomedical-inc

Как я могу рассчитать номер уникального названия компании сейчас? Я пробовал:

    `distinct(rounds$X3)`  ----- not working
    `length(unique(rounds$X3)` --- wrong output number i m getting.

Пожалуйста, помогите. Кроме того, я не уверен, правильно ли я использовал функцию разделения или нет. Особенность я в отношении числа «4». Я рассчитал это число как косую черту, организацию, название компании, косую черту, поэтому попытался разделить на четыре столбца.

Ответы [ 2 ]

0 голосов
/ 30 апреля 2018

Либо используйте tolower, либо toupper, либо str_to_lower / str_to_upper, если вы используете пакет stringr. В противном случае -QOUNTER и -qounter будут учитываться дважды.

Полный пример:

library(stringr)
text <- c("/organization/-fame",
          "/ORGANIZATION/-QOUNTER",
          "/organization/-qounter",
          "/ORGANIZATION/-THE-ONE-OF-THEM-INC-",
          "/ORGANIZATION/0NDINE-BIOMEDICAL-INC",
          "/organization/0ndine-biomedical-inc")

split_prod <- str_split_fixed(text,"/", 4)

companyname <- data.frame(split_prod, stringsAsFactors = FALSE) 
str(companyname) 
head(companyname) 
length(unique(tolower(companyname$X3))) 
[1] 4

Столбец X4 создан, потому что вы указываете 4 в вашем str_split_fixed.

0 голосов
/ 30 апреля 2018

код:

length(unique(tolower(companyname$X3)))

Возвращает номер уникальной компании в столбце X3 вашего companyname кадра данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...