Question

Есть ли способ указать sed выводить только захваченные группы? Например, с учетом ввода:

This is a sample 123 text and some 987 numbers

и шаблон:

/([\d]+)/

Могу ли я получить только выходные данные 123 и 987, отформатированные по обратным ссылкам?

Dennis Williamson · Answer 1 · 06 мая 2010

Ключом к тому, чтобы заставить это работать, является указание sed исключить то, что вы не хотите выводить, а также указать, что вы хотите.

string='This is a sample 123 text and some 987 numbers'
echo "$string" | sed -rn 's/[^[:digit:]]*([[:digit:]]+)[^[:digit:]]+([[:digit:]]+)[^[:digit:]]*/\1 \2/p'

Это говорит:

по умолчанию не печатать каждую строку (-n)
исключить ноль или более не цифр
включает одну или несколько цифр
исключить одну или несколько не цифр
включает одну или несколько цифр
исключить ноль или более не цифр
печать замены (p)

Как правило, в sed вы собираете группы, используя скобки, и выводите то, что вы захватываете, используя обратную ссылку:

echo "foobarbaz" | sed 's/^foo\(.*\)baz$/\1/'

выведет "bar". Если вы используете -r (-E для OS X) для расширенного регулярного выражения, вам не нужно избегать скобок:

echo "foobarbaz" | sed -r 's/^foo(.*)baz$/\1/'

Может быть до 9 групп захвата и их обратных ссылок. Обратные ссылки нумеруются в порядке появления групп, но могут использоваться в любом порядке и могут повторяться:

echo "foobarbaz" | sed -r 's/^foo(.*)b(.)z$/\2 \1 \2/'

выводит "бар а".

Если у вас GNU grep (он также может работать в BSD, включая OS X):

echo "$string" | grep -Po '\d+'

или варианты, такие как:

echo "$string" | grep -Po '(?<=\D )(\d+)'

Опция -P включает Perl-совместимые регулярные выражения. См. man 3 pcrepattern или man 3 pcresyntax.

Peter McG · Answer 2 · 06 мая 2010

Sed имеет до девяти запоминаемых шаблонов, но вам нужно использовать экранированные скобки, чтобы запомнить части регулярного выражения.

См. здесь для примеров и более подробной информации

Ciro Santilli 新疆改造中心996ICU六四事件 · Answer 3 · 08 октября 2015

Сдайся и используй Perl

Так как sed не обрезает его, давайте просто выбросим полотенце и используем Perl, по крайней мере это LSB , тогда как grep расширения GNU не являются: -)

Вывести на печать всю соответствующую часть, не требуя соответствующих групп или вида сзади:
```
cat <<EOS | perl -lane 'print m/\d+/g'
a1 b2
a34 b56
EOS
```
Выход:
```
12
3456
```
Одно совпадение на строку, часто структурированные поля данных:
```
cat <<EOS | perl -lape 's/.*?a(\d+).*/$1/g'
a1 b2
a34 b56
EOS
```
Выход:
```
1
34
```
С видом сзади:
```
cat <<EOS | perl -lane 'print m/(?<=a)(\d+)/'
a1 b2
a34 b56
EOS
```

Несколько полей:

cat <<EOS | perl -lape 's/.*?a(\d+).*?b(\d+).*/$1 $2/g'
a1 c0 b2 c0
a34 c0 b56 c0
EOS

Выход:

1 2
34 56

Несколько совпадений на строку, часто неструктурированные данные:
```
cat <<EOS | perl -lape 's/.*?a(\d+)|.*/$1 /g'
a1 b2
a34 b56 a78 b90
EOS
```
Выход:
```
1 
34 78
```
С видом сзади:
```
cat EOS<< | perl -lane 'print m/(?<=a)(\d+)/g'
a1 b2
a34 b56 a78 b90
EOS
```
Выход:
```
1
3478
```

Joseph Quinsey · Answer 4 · 06 мая 2010

Я полагаю, что шаблон, приведенный в вопросе, был только в качестве примера, и цель состояла в том, чтобы сопоставить любой шаблон

Если у вас есть sed с расширением GNU, позволяющим вставить новую строку в пространство шаблона, одно из предложений:

> set string = "This is a sample 123 text and some 987 numbers"
>
> set pattern = "[0-9][0-9]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
123
987
> set pattern = "[a-z][a-z]*"
> echo $string | sed "s/$pattern/\n&\n/g" | sed -n "/$pattern/p"
his
is
a
sample
text
and
some
numbers

Эти примеры с tcsh (да, я знаю неправильная оболочка) с CYGWIN. (Правка: для bash удалите set и пробелы вокруг =.)

Arrow · Answer 5 · 16 мая 2017

пробег (и) цифр

Этот ответ работает с любым количеством цифр групп. Пример:

$ echo 'Num123that456are7899900contained0018166intext' |
> sed -En 's/[^0-9]*([0-9]{1,})[^0-9]*/\1 /gp'
123 456 7899900 0018166

Расширенный ответ.

Есть ли способ сказать sed выводить только захваченные группы?

Да. заменить весь текст группой захвата:

$ echo 'Number 123 inside text' | sed 's/[^0-9]*\([0-9]\{1,\}\)[^0-9]*/\1/'
123

s/[^0-9]*                           # several non-digits
         \([0-9]\{1,\}\)            # followed by one or more digits
                        [^0-9]*     # and followed by more non-digits.
                               /\1/ # gets replaced only by the digits.

Или с расширенным синтаксисом (меньше обратных кавычек и допускается использование +):

$ echo 'Number 123 in text' | sed -E 's/[^0-9]*([0-9]+)[^0-9]*/\1/'
123

Чтобы не печатать оригинальный текст, когда номер отсутствует, используйте:

$ echo 'Number xxx in text' | sed -En 's/[^0-9]*([0-9]+)[^0-9]*/\1/p'

(- n) Не печатать ввод по умолчанию.
(/ p) печатать, только если была произведена замена.

И сопоставить несколько чисел (а также распечатать их):

$ echo 'N 123 in 456 text' | sed -En 's/[^0-9]*([0-9]+)[^0-9]*/\1 /gp'
123 456

Это работает для любого количества запусков цифр:

$ str='Test Num(s) 123 456 7899900 contained as0018166df in text'
$ echo "$str" | sed -En 's/[^0-9]*([0-9]{1,})[^0-9]*/\1 /gp'
123 456 7899900 0018166

Что очень похоже на команду grep:

$ str='Test Num(s) 123 456 7899900 contained as0018166df in text'
$ echo "$str" | grep -Po '\d+'
123
456
7899900
0018166

О \ d

и шаблон: /([\d]+)/

Sed не распознает синтаксис '\ d' (ярлык). Используемый выше эквивалент ascii [0-9] не совсем эквивалентен. Единственное альтернативное решение - использовать класс символов: '[[: digit:]] `.

Выбранный ответ использует такие «классы символов» для построения решения:

$ str='This is a sample 123 text and some 987 numbers'
$ echo "$str" | sed -rn 's/[^[:digit:]]*([[:digit:]]+)[^[:digit:]]+([[:digit:]]+)[^[:digit:]]*/\1 \2/p'

Это решение работает только для (точно) двух серий цифр.

Конечно, поскольку ответ выполняется внутри оболочки, мы можем определить пару переменных, чтобы сделать такой ответ короче:

$ str='This is a sample 123 text and some 987 numbers'
$ d=[[:digit:]]     D=[^[:digit:]]
$ echo "$str" | sed -rn "s/$D*($d+)$D+($d+)$D*/\1 \2/p"

Но, как уже объяснялось, лучше использовать команду s/…/…/gp:

$ str='This is 75577 a sam33ple 123 text and some 987 numbers'
$ d=[[:digit:]]     D=[^[:digit:]]
$ echo "$str" | sed -rn "s/$D*($d+)$D*/\1 /gp"
75577 33 123 987

Это будет охватывать как повторяющиеся серии цифр, так и написание короткой (er) команды.

Bert F · Answer 6 · 06 мая 2010

Попробуйте

sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"

Я получил это под Cygwin:

$ (echo "asdf"; \
   echo "1234"; \
   echo "asdf1234adsf1234asdf"; \
   echo "1m2m3m4m5m6m7m8m9m0m1m2m3m4m5m6m7m8m9") | \
  sed -n -e "/[0-9]/s/^[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]*\).*$/\1 \2 \3 \4 \5 \6 \7 \8 \9/p"

1234
1234 1234
1 2 3 4 5 6 7 8 9
$

Thomas Bratt · Answer 7 · 28 марта 2014

Это не то, что запросил ОП (захват групп), но вы можете извлечь числа, используя:

S='This is a sample 123 text and some 987 numbers'
echo "$S" | sed 's/ /\n/g' | sed -r '/([0-9]+)/ !d'

Дает следующее:

123
987

Как вывести только захваченные группы с помощью sed?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

пробег (и) цифр

Расширенный ответ.

О \ d

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вывести только захваченные группы с помощью sed?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

пробег (и) цифр

Расширенный ответ.

О \ d

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов