I sh для разделения названий учреждений по адресам в векторе. Мой heuristi c заключается в том, что адрес является правой стороной строки, начиная с первой запятой, за которой следует подстрока, содержащая ди git.
Таким образом, необработанные данные выглядят так:
a <- c("CATHOLIC UNIV KOREA, COLL MED, DEPT LAB MED, SEOUL, SOUTH KOREA",
"UNIV ULSAN, DEPT LAB MED, COLL MED, 88 OLYMP RO 43 GIL, SEOUL 05505, SOUTH KOREA",
"UNIV ULSAN, DEPT INTERNAL MED, COLL MED, SEOUL, SOUTH KOREA",
"ASAN MED CTR, 88 OLYMP RO 43 GIL, SEOUL 05505, SOUTH KOREA",
"YONSEI UNIV, COLL MED, SEVERANCE HOSP, DEPT LAB MED, 50 YONSEI RO, SEOUL 03722, SOUTH KOREA",
"KWANGWOON UNIV, DEPT ELECT MAT ENGN, SEOUL 139701, SOUTH KOREA",
"YG 1 CO LTD, 68 CHONGCHON DONG, INCHEON 430030, SOUTH KOREA")
И я хочу:
"CATHOLIC UNIV KOREA, COLL MED, DEPT LAB MED, SEOUL, SOUTH KOREA" ""
"UNIV ULSAN, DEPT LAB MED, COLL MED" "88 OLYMP RO 43 GIL, SEOUL 05505, SOUTH KOREA"
"UNIV ULSAN, DEPT INTERNAL MED, COLL MED, SEOUL, SOUTH KOREA" ""
"ASAN MED CTR" "88 OLYMP RO 43 GIL, SEOUL 05505, SOUTH KOREA"
"YONSEI UNIV, COLL MED, SEVERANCE HOSP, DEPT LAB MED" "50 YONSEI RO, SEOUL 03722, SOUTH KOREA"
"KWANGWOON UNIV, DEPT ELECT MAT ENGN" "SEOUL 139701, SOUTH KOREA"
"" "YG 1 CO LTD, 68 CHONGCHON DONG, INCHEON 430030, SOUTH KOREA"
РЕДАКТИРОВАТЬ 1: Я перефразировал мой вопрос более систематическим c способом.
РЕДАКТИРОВАТЬ 2: Ди git может встречаться до первого разделителя: я добавил это значение в конец примера данных.