Извлечение каталога TOP из пути к файлу в R - PullRequest
1 голос
/ 28 мая 2019

Мне нужно руководство о том, как извлечь первый (или) верхний каталог из заданного пути.Это включает в себя первый слеш и последний слеш.Например, по пути: "/chemicalemergencies/category/test-page1.html" мне нужно извлечь "/ chemicalemergencies /" Я использовал str_extract и regex для идентификации шаблона, но проблема в том, что он возвращает ЛЮБОЙматч.Это проблематично, если в URL есть дубликаты папок.Так, например, если путь «/chemicalemergencies/category/chemicalemergencies/test-page1.html», он вернет ОБА результаты, когда мне нужен только первый.Как заставить шаблон обнаружить остановку после первого совпадения в строке?

Sys.time()
#i=4
for (i in 1:nrow(wwwdevurls)) {
  pathextract_wwwdev <- str_extract(wwwdevurls[i,3],"\\/([A-z0-9]+)\\/")
  pathextract_wwwdev.df[i,1] <- pathextract_wwwdev #Load pathextract into pathextract.df
  pathextract_wwwdev.df[i,2] <- wwwdevurls[i,1] #Load CIO into pathextract.df
}
Sys.time()

Ответы [ 2 ]

0 голосов
/ 28 мая 2019

Если ваши пути всегда начинаются с косой черты, вы можете использовать:

sub("(/.*?/).*", "\\1", path)
"/chemicalemergencies/"
0 голосов
/ 28 мая 2019

Используйте ^[^/]*(/[^/]*/)
, где первый каталог, заключенный в слэши, находится в группе 1.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...