Question

У меня есть символьный вектор

a=c("Mom", "mother", "Alex", "Betty", "Prime Minister")

Я хочу извлечь слова, начинающиеся только с буквы "M" (верхний и нижний оба)

Как это сделать?

Я пытался использовать grep(), sub() и другие варианты этой функции, но я не совсем понял.

Я ожидаю, что на выходе будет символьный вектор "мама" и "мама"

sindri_baldur · Answer 1 · 16 января 2019

substr - очень удобная базовая функция R:

a[substr(a, 1, 1) %in% c("M", "m")]

# [1] "Mom"    "mother"

И так как вы упомянули sub(), то вы могли бы сделать (хотя не обязательно рекомендуется):

a[sub("(.).*", "\\1", a) %in% c("M", "m")]

Wimpel · Answer 2 · 16 января 2019

обычный grep тоже подойдет

grep( "^m", a, ignore.case = TRUE, value = TRUE )
#[1] "Mom"    "mother"

тесты
Ответ Тома (начинается с) является победителем, но есть некоторые возможности для улучшения (проверьте код startsWith2)

microbenchmark::microbenchmark(
  substr = a[substr(a, 1, 1) %in% c("M", "m")],
  grepl = a[grepl("^[Mm]", a)],
  grep = grep( "^m", a, ignore.case = TRUE, value = TRUE ),
  stringr = unlist(stringr::str_extract_all(a,regex("^M.*",ignore_case = T))),
  startsWith1 = a[startsWith(toupper(a), "M")],
  startsWith2= a[startsWith(a, c("M", "m"))]
)


# Unit: nanoseconds
#        expr   min      lq     mean median    uq    max neval
#      substr  1808  2411.0  3323.19   3314  3917   8435   100
#       grepl  3916  4218.0  5438.06   4820  6930   8436   100
#        grep  3615  4368.5  5450.10   4820  6929  19582   100
#     stringr 50913 53023.0 55764.10  54529 55132 174432   100
# startsWith1  1506  2109.0  2814.11   2711  3013  17474   100
# startsWith2   602  1205.0  1410.17   1206  1507   3013   100

Tim Biegeleisen · Answer 3 · 16 января 2019

Используйте grepl, с рисунком ^[Mm]:

a[grepl("^[Mm]", a)]

[1] "Mom"    "mother"

Вот что означает шаблон ^[Mm]:

^      from the start of the string
[Mm]   match either a lowercase or uppercase letter M

Функция grepl работает, просто утверждая, что шаблон ввода соответствует хотя бы один раз, поэтому нам не нужно беспокоиться об остальной части строки.

NelsonGon · Answer 4 · 16 января 2019

Использование stringr

 library(stringr)
   unlist(str_extract_all(a,regex("^M.*",ignore_case = T)))



[1] "Mom"    "mother"

Извлечение определенных элементов из вектора символов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение определенных элементов из вектора символов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов