Question

Как в Perl можно использовать одну группу регулярных выражений для захвата нескольких совпадений, совпадающих с ним, в несколько элементов массива?

Например, для строки:

var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello

обработать это с кодом:

$string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my @array = $string =~ <regular expression here>

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
  print $i.": ".$array[$i]."\n";
}

Я хотел бы видеть в качестве вывода:

0: var1=100
1: var2=90
2: var5=hello
3: var3="a, b, c"
4: var7=test
5: var3=hello

Что бы я использовал в качестве регулярного выражения?

Общность между вещамиЯ хочу сопоставить здесь шаблон строки присваивания, поэтому что-то вроде:

my @array = $string =~ m/(\w+=[\w\"\,\s]+)*/;

Где * указывает на одно или несколько вхождений, соответствующих группе.

(я обесценил, используя split ()поскольку некоторые совпадения содержат пробелы внутри себя (т. е. var3 ...) и, следовательно, не дают желаемых результатов.)

С приведенным выше регулярным выражением я получаю только:

0: var1=100 var2

Возможно ли этов регулярном выражении?Или требуется дополнительный код?

Уже просматривал существующие ответы при поиске "perl regex множественная группа", но недостаточно подсказок:

jkramer · Answer 1 · 11 августа 2010

my $string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

while($string =~ /(?:^|\s+)(\S+)\s*=\s*("[^"]*"|\S*)/g) {
        print "<$1> => <$2>\n";
}

Отпечатки:

<var1> => <100>
<var2> => <90>
<var5> => <hello>
<var3> => <"a, b, c">
<var7> => <test>
<var3> => <hello>

Объяснение:

Последний фрагмент первым: флаг g в конце означает, что вы можете применять регулярное выражение к строке несколько раз.Во второй раз он продолжит сопоставление, где последнее совпадение закончилось в строке.

Теперь для регулярного выражения: (?:^|\s+) соответствует либо началу строки, либо группе из одного или нескольких пробелов.Это необходимо, чтобы при следующем применении регулярного выражения мы пропускали пробелы между парами ключ / значение.?: означает, что содержимое скобок не будет записано как группа (нам не нужны пробелы, только ключ и значение).\S+ соответствует имени переменной.Затем мы пропускаем любое количество пробелов и знак равенства между ними.Наконец, ("[^"]*"|\S*)/ соответствует либо двум кавычкам с любым количеством символов между ними, либо любому количеству непробельных символов для значения.Обратите внимание, что сопоставление цитат довольно хрупкое и не будет правильно обрабатывать экранированные кавычки, например, "\"quoted\"" приведет к "\".

РЕДАКТИРОВАТЬ:

Поскольку вы действительно хотите получить целыеприсваивание, а не отдельные ключи / значения, вот одна строка, которая извлекает их:

my @list = $string =~ /(?:^|\s+)((?:\S+)\s*=\s*(?:"[^"]*"|\S*))/g;

Greg Bacon · Answer 2 · 12 августа 2010

В регулярных выражениях используйте технику, которую я люблю называть tack-and-stretch: привязка к функциям, которые, как вы знаете, будут там (tack), а затем захватывает то, что находится между (stretch).

В этом случае вы знаете, что соответствует одно присвоение

\b\w+=.+

и многие из них повторяются в $string. Помните, что \b означает границу слова:

Граница слова (\b) - это точка между двумя символами, имеющая \w на одной стороне от нее и \W на другой стороне (в любом порядке), считая воображаемые символы начало и конец строки как совпадающие с \W.

Значения в назначениях могут быть немного сложными для описания с помощью регулярного выражения, но вы также знаете, что каждое значение будет заканчиваться пробелом - хотя не обязательно первым встречным пробелом! - после другого назначения или конца -string.

Чтобы избежать повторения шаблона утверждения, скомпилируйте его один раз с qr// и повторно используйте его в своем шаблоне вместе с прогнозным утверждением (?=...), чтобы растянуть совпадение просто достаточно далеко, чтобы захватить все значение, а также предотвратить его перетекание в имя следующей переменной.

Сопоставление с вашим шаблоном в контексте списка с m//g дает следующее поведение:

Модификатор /g определяет глобальное сопоставление с образцом, то есть сопоставление столько раз, сколько возможно в пределах строки. Как это ведет себя, зависит от контекста. В контексте списка он возвращает список подстрок, сопоставленных с любыми захватывающими скобками в регулярном выражении. Если круглых скобок нет, возвращается список всех совпадающих строк, как если бы вокруг всего шаблона были круглые скобки.

В шаблоне $assignment используется нежадный .+? для обрезания значения, как только упреждающий просмотр увидит другое назначение или конец строки. Помните, что совпадение возвращает подстроки из всех , захватывающих подшаблоны, поэтому в альтернативном прогнозе используется не захват (?:...). qr//, напротив, содержит неявные круглые скобки.

#! /usr/bin/perl

use warnings;
use strict;

my $string = <<'EOF';
var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello
EOF

my $assignment = qr/\b\w+ = .+?/x;
my @array = $string =~ /$assignment (?= \s+ (?: $ | $assignment))/gx;

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
  print $i.": ".$array[$i]."\n";
}

Выход:

0: var1=100
1: var2=90
2: var5=hello
3: var3="a, b, c"
4: var7=test
5: var3=hello

Evan Carroll · Answer 3 · 12 августа 2010

Я не говорю, что это то, что вы должны делать, но вы пытаетесь написать грамматику . Теперь ваш пример очень простой для грамматики, но модуль Дамиана Конвея Regexp :: Grammars действительно хорош в этом. Если вам вообще понадобится вырастить это, вы обнаружите, что это сделает вашу жизнь намного проще. Я использую его здесь немного - это своего рода perl6-иш.

use Regexp::Grammars;
use Data::Dumper;
use strict;
use warnings;

my $parser = qr{
    <[pair]>+
    <rule: pair>     <key>=(?:"<list>"|<value=literal>)
    <token: key>     var\d+
    <rule: list>     <[MATCH=literal]> ** (,)
    <token: literal> \S+

}xms;

q[var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello] =~ $parser;
die Dumper {%/};

Выход:

$VAR1 = {
          '' => 'var1=100 var2=90 var5=hello var3="a, b, c" var7=test var3=hello',
          'pair' => [
                      {
                        '' => 'var1=100',
                        'value' => '100',
                        'key' => 'var1'
                      },
                      {
                        '' => 'var2=90',
                        'value' => '90',
                        'key' => 'var2'
                      },
                      {
                        '' => 'var5=hello',
                        'value' => 'hello',
                        'key' => 'var5'
                      },
                      {
                        '' => 'var3="a, b, c"',
                        'key' => 'var3',
                        'list' => [
                                    'a',
                                    'b',
                                    'c'
                                  ]
                      },
                      {
                        '' => 'var7=test',
                        'value' => 'test',
                        'key' => 'var7'
                      },
                      {
                        '' => 'var3=hello',
                        'value' => 'hello',
                        'key' => 'var3'
                      }
                    ]

nicomen · Answer 4 · 11 августа 2010

Может быть, немного выше, но у меня есть оправдание для изучения http://p3rl.org/Parse::RecDescent. Как насчет создания парсера?

#!/usr/bin/perl

use strict;
use warnings;

use Parse::RecDescent;

use Regexp::Common;

my $grammar = <<'_EOGRAMMAR_'
INTEGER: /[-+]?\d+/
STRING: /\S+/
QSTRING: /$Regexp::Common::RE{quoted}/

VARIABLE: /var\d+/
VALUE: ( QSTRING | STRING | INTEGER )

assignment: VARIABLE "=" VALUE /[\s]*/ { print "$item{VARIABLE} => $item{VALUE}\n"; }

startrule: assignment(s)
_EOGRAMMAR_
;

$Parse::RecDescent::skip = '';
my $parser = Parse::RecDescent->new($grammar);

my $code = q{var1=100 var2=90 var5=hello var3="a, b, c" var7=test var8=" haha \" heh " var3=hello};
$parser->startrule($code);

Выходы:

var1 => 100
var2 => 90
var5 => hello
var3 => "a, b, c"
var7 => test
var8 => " haha \" heh "
var3 => hello

PS. Обратите внимание на двойное var3, если вы хотите, чтобы последнее присвоение перезаписывало первое, вы можете использовать хеш для хранения значений, а затем использовать их позже.

ПФС. Моей первой мыслью было разделить на '=', но это не сработало бы, если бы строка содержала '=', и так как регулярные выражения почти всегда плохи для разбора, я в конечном итоге попробовал это, и это работает.

Редактировать: Добавлена поддержка экранированных кавычек внутри строк в кавычках.

Delian Krustev · Answer 5 · 23 февраля 2012

Мне недавно пришлось разбирать строки сертификата x509 «Тема».Они имели форму, аналогичную той, которую вы предоставили:

echo 'Subject: C=HU, L=Budapest, O=Microsec Ltd., CN=Microsec e-Szigno Root CA 2009/emailAddress=info@e-szigno.hu' | \
  perl -wne 'my @a = m/(\w+\=.+?)(?=(?:, \w+\=|$))/g; print "$_\n" foreach @a;'

C=HU
L=Budapest
O=Microsec Ltd.
CN=Microsec e-Szigno Root CA 2009/emailAddress=info@e-szigno.hu

Краткое описание регулярного выражения:

(\w+\=.+?) - захватывает слова, за которыми следует '=', и любые последующие символы в не жадном видеmode
(?=(?:, \w+\=|$)) - за которым следует либо , KEY=val, либо конец строки.

Интересная часть используемого регулярного выражения:

.+? -Режим без жадности
(?:pattern) - режим без захвата
(?=pattern) положительное прогнозное утверждение нулевой ширины

Sinan Ünür · Answer 6 · 12 августа 2010

#!/usr/bin/perl

use strict; use warnings;

use Text::ParseWords;
use YAML;

my $string =
    "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my @parts = shellwords $string;
print Dump \@parts;

@parts = map { { split /=/ } } @parts;

print Dump \@parts;

Hynek -Pichi- Vychodil · Answer 7 · 11 августа 2010

Это также обеспечит вам обычное экранирование в двойных кавычках, например, var3 = "a, \" b, c ".

@a = /(\w+=(?:\w+|"(?:[^\\"]*(?:\\.[^\\"]*)*)*"))/g;

В действии:

echo 'var1=100 var2=90 var42="foo\"bar\\" var5=hello var3="a, b, c" var7=test var3=hello' |
perl -nle '@a = /(\w+=(?:\w+|"(?:[^\\"]*(?:\\.[^\\"]*)*)*"))/g; $,=","; print @a'
var1=100,var2=90,var42="foo\"bar\\",var5=hello,var3="a, b, c",var7=test,var3=hello

dawg · Answer 8 · 12 августа 2010

Вы запросили решение RegEx или другой код. Вот (в основном) решение без регулярных выражений, использующее только основные модули. Единственное регулярное выражение - \s+ для определения разделителя; в этом случае один или несколько пробелов.

use strict; use warnings;
use Text::ParseWords;
my $string="var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";  

my @array = quotewords('\s+', 0, $string);

for ( my $i = 0; $i < scalar( @array ); $i++ )
{
    print $i.": ".$array[$i]."\n";
}

Или вы можете выполнить код ЗДЕСЬ

Вывод:

0: var1=100
1: var2=90
2: var5=hello
3: var3=a, b, c
4: var7=test
5: var3=hello

Если вам действительно нужно решение для регулярных выражений, комментарий Алана Мура , ссылающийся на его код в IDEone, - это газ!

szbalint · Answer 9 · 11 августа 2010

Это можно сделать с помощью регулярных выражений, однако оно хрупкое.

my $string = "var1=100 var2=90 var5=hello var3=\"a, b, c\" var7=test var3=hello";

my $regexp = qr/( (?:\w+=[\w\,]+) | (?:\w+=\"[^\"]*\") )/x;
my @matches = $string =~ /$regexp/g;

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 9 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы