RegEx для захвата первой итерации - PullRequest
1 голос
/ 14 мая 2019

У меня есть несколько строк, которые я хочу извлечь имя с помощью регулярного выражения. Полное имя находится внутри одного или нескольких каналов, как и любая другая часть строки.

Каждая строка может быть пустой, некоторые образцы:

"Women's College Hospital|76 Grenville Street|ACTT Clinic 6 East|Toronto ON  M5S 1B2"

""

"Health and Wellness Center|University of Toronto|214 College Street, Room 111|Toronto ON M5T 2Z9"

"Royal Health Care Centre|130 Adelaide St. West|Lower Concourse|P.O.Box 92|Toronto ON  M5H 3P5"

"Suite 1038|790 Bay Street|P.O. Box 51|Toronto ON  M5G 1N8
M5G 1N8"

"P.O. Box 19569|Toronto ON  M4W3T9"

У меня есть это регулярное выражение

^(.*\|)*((?i).*(room|st.|street|road|avenue|P.O.|St.).*\|(?-i).*)$

Хорошо группируется, если в строке есть только одно совпадение.

Но если имеется более одной итерации или другого совпадения, он группируется с последняя итерация или последнее совпадение.

Например, для строки

"Sleep & Alertness Clinic|790 Bay street |Suite 800| st. 32|Toronto ON  M5G 1N8"

результат:

  1. Группа 1. Клиника сна и оповещения | 790 Bay street |
  2. Группа 2. 32 ул. | Люкс 800 | Торонто ON M5G 1N8

То, что я хочу, это:

  1. Группа 1. Клиника сна и бдительности |
  2. Группа 2. 790 Bay Street | 32 st. | Suite 800 | Toronto ON M5G 1N8

Ответы [ 2 ]

2 голосов
/ 14 мая 2019

Выражение, которое вы ищете, может быть таким простым:

"(.*?)\|(.*)"

Скорее всего, вы не хотите и не нуждаетесь в якорях ^ и $, но если вы хотите ихпо какой-то причине затем подумайте о добавлении других границ.

RegEx

Вы можете спроектировать / изменить / изменить выражения в regex101.com .

enter image description here

Схема RegEx

Вы можете визуализировать свои выражения в jex.im :

enter image description here

Тест JavaScript

const regex = /"(.*?)\|(.*)"/gmi;
const str = `"Women's College Hospital|76 Grenville Street|ACTT Clinic 6 East|Toronto ON M5S 1B2"
""
"Health and Wellness Center|University of Toronto|214 College Street, Room 111|Toronto ON M5T 2Z9"
"Royal Health Care Centre|130 Adelaide St. West|Lower Concourse|P.O.Box 92|Toronto ON M5H 3P5"
"Suite 1038|790 Bay Street|P.O. Box 51|Toronto ON M5G 1N8 M5G 1N8"
"P.O. Box 19569|Toronto ON M4W3T9"
"Sleep & Alertness Clinic|790 Bay street |Suite 800| st. 32|Toronto ON M5G 1N8"`;
let m;

while ((m = regex.exec(str)) !== null) {
    // This is necessary to avoid infinite loops with zero-width matches
    if (m.index === regex.lastIndex) {
        regex.lastIndex++;
    }
    
    // The result can be accessed through the `m`-variable.
    m.forEach((match, groupIndex) => {
        console.log(`Found match, group ${groupIndex}: ${match}`);
    });
}

Если вам действительно нужно иметь трубу в первой группе, вы можете просто добавить ее в качестве замены или, возможно, обернуть ее другой группой захвата.

2 голосов
/ 14 мая 2019

В регулярном выражении вы можете добавить вопросительный знак к .*, чтобы он не был жадным и остановился после первого матча.

^(.*?(?:room|st\.|street|road|avenue|P\.O\.)[^|]*)(.*)$

Вот демонстрационная версия

...