Question

Я пытаюсь извлечь шаблон из некоторого HTML.Я использую stringr.

У меня есть список чисел, например nums<-c(">00324R<",">E223143<",">00000F<") Я пробовал str_extract(nums,">[A-Z0-9]{4,}?<"), который извлекает нужный мне шаблон (">00324R<" ">E223143<" ">00000F<"), но я не хочу извлекать <или>

Я знаю, что положительный взгляд может быть ответом здесь, но я не могу создать тот, который работает, и я не уверен, почему нет.Я пробовал:

str_extract(nums,"(?<=<)[A-Z0-9]{4,}?<")

Wiktor Stribiżew · Answer 1 · 05 июня 2019

Используйте следующее регулярное выражение

> str_extract(nums,"(?<=>)[A-Z0-9]{4,}(?=<)")
[1] "00324R"  "E223143" "00000F"

Подробно

(?<=>) - положительный вид сзади, который соответствует местоположению, которому непосредственно предшествует >
[A-Z0-9]{4,} - четыре или более заглавных букв или цифр ASCII
(?=<) - положительный прогноз, который совпадает с местоположением, за которым сразу следует <.

См. Демонстрационную версию regex и график регулярных выражений:

sindri_baldur · Answer 2 · 05 июня 2019

Если ваши строки настолько непротиворечивы, вы можете просто выбрать что-то, что не > или <:

str_extract(nums, "[^<>]+")
# [1] "00324R"  "E223143" "00000F"

Или gsub() их прочь:

gsub("[<|>]", "", nums)

Как извлечь только группу захвата в регулярном выражении в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь только группу захвата в регулярном выражении в R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов