Это уменьшенная репрезентативная версия файла данных, которую мне нужно проанализировать и разделить на фрагменты с помощью awk на основе римской цифры каждого фрагмента.
I
Apple
II
Banana
III
Mango
IV
Durian
Lemon
IV
Papaya
V
Это казалось простой задачей с awk, поэтому я попытался gawk -v RS="[A-Z]+$" '{print $0}' blah.txt
использовать строки, заканчивающиеся одной или несколькими заглавными буквами (таким образом указывая строки с римскими цифрами), в качестве разделителей записей.
Удивительно, но программа выдала весь файл данных. Где я go ошибся? Еще более удивительно, если я помещу exit
после оператора print, он все еще печатает весь файл (указывая, что весь файл рассматривается как одна запись)
Я использую GNU AWK 4.1.3 на машине Linux Mint.
ПРИМЕЧАНИЕ: Конкретный c вариант использования, который я имею в виду, состоит в том, чтобы извлечь произвольный шекспировский номер, так что nnet по номеру, из текстового файла в http://www.gutenberg.org/cache/epub/1041/pg1041.txt (после удаления данных верхнего и нижнего колонтитулов)