Группа регулярных выражений в Perl: как захватить элементы в массив из группы регулярных выражений, которая соответствует неизвестному числу / многократных / переменных вхождений из строки - PullRequest
46 голосов
/ 11 августа 2010

Как в Perl можно использовать одну группу регулярных выражений для захвата нескольких совпадений, совпадающих с ним, в несколько элементов массива?

Например, для строки:

var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello

обработать это с кодом:

$string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my @array = $string =~ <regular expression here>

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
  print $i.": ".$array[$i]."\n";
}

Я хотел бы видеть в качестве вывода:

0: var1=100
1: var2=90
2: var5=hello
3: var3="a, b, c"
4: var7=test
5: var3=hello

Что бы я использовал в качестве регулярного выражения?

Общность между вещамиЯ хочу сопоставить здесь шаблон строки присваивания, поэтому что-то вроде:

my @array = $string =~ m/(\w+=[\w\"\,\s]+)*/;

Где * указывает на одно или несколько вхождений, соответствующих группе.

(я обесценил, используя split ()поскольку некоторые совпадения содержат пробелы внутри себя (т. е. var3 ...) и, следовательно, не дают желаемых результатов.)

С приведенным выше регулярным выражением я получаю только:

0: var1=100 var2

Возможно ли этов регулярном выражении?Или требуется дополнительный код?

Уже просматривал существующие ответы при поиске "perl regex множественная группа", но недостаточно подсказок:

Ответы [ 9 ]

41 голосов
/ 11 августа 2010
my $string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

while($string =~ /(?:^|\s+)(\S+)\s*=\s*("[^"]*"|\S*)/g) {
        print "<$1> => <$2>\n";
}

Отпечатки:

<var1> => <100>
<var2> => <90>
<var5> => <hello>
<var3> => <"a, b, c">
<var7> => <test>
<var3> => <hello>

Объяснение:

Последний фрагмент первым: флаг g в конце означает, что вы можете применять регулярное выражение к строке несколько раз.Во второй раз он продолжит сопоставление, где последнее совпадение закончилось в строке.

Теперь для регулярного выражения: (?:^|\s+) соответствует либо началу строки, либо группе из одного или нескольких пробелов.Это необходимо, чтобы при следующем применении регулярного выражения мы пропускали пробелы между парами ключ / значение.?: означает, что содержимое скобок не будет записано как группа (нам не нужны пробелы, только ключ и значение).\S+ соответствует имени переменной.Затем мы пропускаем любое количество пробелов и знак равенства между ними.Наконец, ("[^"]*"|\S*)/ соответствует либо двум кавычкам с любым количеством символов между ними, либо любому количеству непробельных символов для значения.Обратите внимание, что сопоставление цитат довольно хрупкое и не будет правильно обрабатывать экранированные кавычки, например, "\"quoted\"" приведет к "\".

РЕДАКТИРОВАТЬ:

Поскольку вы действительно хотите получить целыеприсваивание, а не отдельные ключи / значения, вот одна строка, которая извлекает их:

my @list = $string =~ /(?:^|\s+)((?:\S+)\s*=\s*(?:"[^"]*"|\S*))/g;
8 голосов
/ 12 августа 2010

В регулярных выражениях используйте технику, которую я люблю называть tack-and-stretch: привязка к функциям, которые, как вы знаете, будут там (tack), а затем захватывает то, что находится между (stretch).

В этом случае вы знаете, что соответствует одно присвоение

\b\w+=.+

и многие из них повторяются в $string. Помните, что \b означает границу слова:

Граница слова (\b) - это точка между двумя символами, имеющая \w на одной стороне от нее и \W на другой стороне (в любом порядке), считая воображаемые символы начало и конец строки как совпадающие с \W.

Значения в назначениях могут быть немного сложными для описания с помощью регулярного выражения, но вы также знаете, что каждое значение будет заканчиваться пробелом - хотя не обязательно первым встречным пробелом! - после другого назначения или конца -string.

Чтобы избежать повторения шаблона утверждения, скомпилируйте его один раз с qr// и повторно используйте его в своем шаблоне вместе с прогнозным утверждением (?=...), чтобы растянуть совпадение просто достаточно далеко, чтобы захватить все значение, а также предотвратить его перетекание в имя следующей переменной.

Сопоставление с вашим шаблоном в контексте списка с m//g дает следующее поведение:

Модификатор /g определяет глобальное сопоставление с образцом, то есть сопоставление столько раз, сколько возможно в пределах строки. Как это ведет себя, зависит от контекста. В контексте списка он возвращает список подстрок, сопоставленных с любыми захватывающими скобками в регулярном выражении. Если круглых скобок нет, возвращается список всех совпадающих строк, как если бы вокруг всего шаблона были круглые скобки.

В шаблоне $assignment используется нежадный .+? для обрезания значения, как только упреждающий просмотр увидит другое назначение или конец строки. Помните, что совпадение возвращает подстроки из всех , захватывающих подшаблоны, поэтому в альтернативном прогнозе используется не захват (?:...). qr//, напротив, содержит неявные круглые скобки.

#! /usr/bin/perl

use warnings;
use strict;

my $string = <<'EOF';
var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello
EOF

my $assignment = qr/\b\w+ = .+?/x;
my @array = $string =~ /$assignment (?= \s+ (?: $ | $assignment))/gx;

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
  print $i.": ".$array[$i]."\n";
}

Выход:

0: var1=100
1: var2=90
2: var5=hello
3: var3="a, b, c"
4: var7=test
5: var3=hello
7 голосов
/ 12 августа 2010

Я не говорю, что это то, что вы должны делать, но вы пытаетесь написать грамматику . Теперь ваш пример очень простой для грамматики, но модуль Дамиана Конвея Regexp :: Grammars действительно хорош в этом. Если вам вообще понадобится вырастить это, вы обнаружите, что это сделает вашу жизнь намного проще. Я использую его здесь немного - это своего рода perl6-иш.

use Regexp::Grammars;
use Data::Dumper;
use strict;
use warnings;

my $parser = qr{
    <[pair]>+
    <rule: pair>     <key>=(?:"<list>"|<value=literal>)
    <token: key>     var\d+
    <rule: list>     <[MATCH=literal]> ** (,)
    <token: literal> \S+

}xms;

q[var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello] =~ $parser;
die Dumper {%/};

Выход:

$VAR1 = {
          '' => 'var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello',
          'pair' => [
                      {
                        '' => 'var1=100',
                        'value' => '100',
                        'key' => 'var1'
                      },
                      {
                        '' => 'var2=90',
                        'value' => '90',
                        'key' => 'var2'
                      },
                      {
                        '' => 'var5=hello',
                        'value' => 'hello',
                        'key' => 'var5'
                      },
                      {
                        '' => 'var3="a, b, c"',
                        'key' => 'var3',
                        'list' => [
                                    'a',
                                    'b',
                                    'c'
                                  ]
                      },
                      {
                        '' => 'var7=test',
                        'value' => 'test',
                        'key' => 'var7'
                      },
                      {
                        '' => 'var3=hello',
                        'value' => 'hello',
                        'key' => 'var3'
                      }
                    ]
4 голосов
/ 11 августа 2010

Может быть, немного выше, но у меня есть оправдание для изучения http://p3rl.org/Parse::RecDescent. Как насчет создания парсера?

#!/usr/bin/perl

use strict;
use warnings;

use Parse::RecDescent;

use Regexp::Common;

my $grammar = <<'_EOGRAMMAR_'
INTEGER: /[-+]?\d+/
STRING: /\S+/
QSTRING: /$Regexp::Common::RE{quoted}/

VARIABLE: /var\d+/
VALUE: ( QSTRING | STRING | INTEGER )

assignment: VARIABLE "=" VALUE /[\s]*/ { print "$item{VARIABLE} => $item{VALUE}\n"; }

startrule: assignment(s)
_EOGRAMMAR_
;

$Parse::RecDescent::skip = '';
my $parser = Parse::RecDescent->new($grammar);

my $code = q{var1=100 var2=90 var5=hello var3="a, b, c" var7=test var8=" haha \" heh " var3=hello};
$parser->startrule($code);

Выходы:

var1 => 100
var2 => 90
var5 => hello
var3 => "a, b, c"
var7 => test
var8 => " haha \" heh "
var3 => hello

PS. Обратите внимание на двойное var3, если вы хотите, чтобы последнее присвоение перезаписывало первое, вы можете использовать хеш для хранения значений, а затем использовать их позже.

ПФС. Моей первой мыслью было разделить на '=', но это не сработало бы, если бы строка содержала '=', и так как регулярные выражения почти всегда плохи для разбора, я в конечном итоге попробовал это, и это работает.

Редактировать: Добавлена ​​поддержка экранированных кавычек внутри строк в кавычках.

3 голосов
/ 23 февраля 2012

Мне недавно пришлось разбирать строки сертификата x509 «Тема».Они имели форму, аналогичную той, которую вы предоставили:

echo 'Subject: C=HU, L=Budapest, O=Microsec Ltd., CN=Microsec e-Szigno Root CA 2009/emailAddress=info@e-szigno.hu' | \
  perl -wne 'my @a = m/(\w+\=.+?)(?=(?:, \w+\=|$))/g; print "$_\n" foreach @a;'

C=HU
L=Budapest
O=Microsec Ltd.
CN=Microsec e-Szigno Root CA 2009/emailAddress=info@e-szigno.hu

Краткое описание регулярного выражения:

(\w+\=.+?) - захватывает слова, за которыми следует '=', и любые последующие символы в не жадном видеmode
(?=(?:, \w+\=|$)) - за которым следует либо , KEY=val, либо конец строки.

Интересная часть используемого регулярного выражения:

  • .+? -Режим без жадности
  • (?:pattern) - режим без захвата
  • (?=pattern) положительное прогнозное утверждение нулевой ширины
2 голосов
/ 12 августа 2010
#!/usr/bin/perl

use strict; use warnings;

use Text::ParseWords;
use YAML;

my $string =
    "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my @parts = shellwords $string;
print Dump \@parts;

@parts = map { { split /=/ } } @parts;

print Dump \@parts;
2 голосов
/ 11 августа 2010

Это также обеспечит вам обычное экранирование в двойных кавычках, например, var3 = "a, \" b, c ".

@a = /(\w+=(?:\w+|"(?:[^\\"]*(?:\\.[^\\"]*)*)*"))/g;

В действии:

echo 'var1=100 var2=90 var42="foo\"bar\\" var5=hello var3="a, b, c" var7=test var3=hello' |
perl -nle '@a = /(\w+=(?:\w+|"(?:[^\\"]*(?:\\.[^\\"]*)*)*"))/g; $,=","; print @a'
var1=100,var2=90,var42="foo\"bar\\",var5=hello,var3="a, b, c",var7=test,var3=hello
1 голос
/ 12 августа 2010

Вы запросили решение RegEx или другой код. Вот (в основном) решение без регулярных выражений, использующее только основные модули. Единственное регулярное выражение - \s+ для определения разделителя; в этом случае один или несколько пробелов.

use strict; use warnings;
use Text::ParseWords;
my $string="var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";  

my @array = quotewords('\s+', 0, $string);

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
    print $i.": ".$array[$i]."\n";
}

Или вы можете выполнить код ЗДЕСЬ

Вывод:

0: var1=100
1: var2=90
2: var5=hello
3: var3=a, b, c
4: var7=test
5: var3=hello

Если вам действительно нужно решение для регулярных выражений, комментарий Алана Мура , ссылающийся на его код в IDEone, - это газ!

0 голосов
/ 11 августа 2010

Это можно сделать с помощью регулярных выражений, однако оно хрупкое.

my $string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my $regexp = qr/( (?:\w+=[\w\,]+) | (?:\w+=\"[^\"]*\") )/x;
my @matches = $string =~ /$regexp/g;
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...