Поиск нескольких шаблонов URL с помощью регулярного выражения Posix - PullRequest
0 голосов
/ 03 июня 2018

Я пытаюсь сопоставить строку URL с сотнями шаблонов.Я использую regcomp ().Насколько я понимаю, я могу объединить все эти сотни шаблонов в одно регулярное выражение, разделенное (), и скомпилировать с помощью одного вызова regcomp ().Это правильно?

Я пробовал это, но как-то не работает.В этом примере я пытаюсь сопоставить 4 шаблона.входной файл Url_file имеет 4 строки ввода www.aaa.com www.bb.cc harom.bb.cc/dhkf dup.com.Я ожидал совпадения для всех 4 строк, но моя программа возвращает Нет совпадений.

Также мне нужно знать, какая часть совпадения подстроки соответствует.

int processUrlPosixWay(char *url_file) {
    regex_t compiled_regex;
    size_t max_groups;
    size_t errcode;
    int regflags = REG_EXTENDED|REG_ICASE|REG_NEWLINE;
    char buf[1024];
    const char* arg_regex = "(.*.aaa.com)(www.bb.*)(harom.bb.cc/d.*)(dup.com)";
    //  const char* arg_regex = ".*bb~.cc/d~.*";

    // const char* arg_string = argv[3];

    FILE* fp = fopen(url_file, "r");
    if (fp == NULL)
    {
        pa_log("Error while opening the %s file.\n", url_file);
        return FAILURE;
    }
    // Compile the regex. Return code != 0 means an error.
    if ((errcode = regcomp(&compiled_regex, arg_regex, regflags))) {
        report_regex_error(errcode, &compiled_regex);
        fclose(fp);
        return FAILURE;
    }

    {
        max_groups = compiled_regex.re_nsub;
        printf("max groups %zu",max_groups);
        regmatch_t match_groups[max_groups];

        while (fscanf(fp,"%s",buf) != EOF) {
            if (regexec(&compiled_regex, buf,
                        max_groups, match_groups, 0) == 0) {
                // Go over all matches. A match with rm_so = -1 signals the end
                for (size_t i = 0; i < max_groups; ++i) {
                    if (match_groups[i].rm_so == -1)
                        break;
                    printf("Match group %zu: ", i);
                    for (regoff_t p = match_groups[i].rm_so;
                            p < match_groups[i].rm_eo; ++p) {
                        putchar(arg_regex[p]);
                    }
                    putchar('\n');
                }
                printf(" match\n");

            } else {
                printf("No match\n");
            }
        }
    }
    fclose(fp);
    return 0;
}

1 Ответ

0 голосов
/ 03 июня 2018

() в регулярном выражении используются для идентификации группы;так что ваше регулярное выражение говорит, что все 4 URL-адреса должны быть в указанном порядке.

Если вы разделите их с |, это будет означать, что каждый из них является альтернативой, и будет вести себя так, как онкажется, что вы хотите.

...