Разбор файлов фиксированной ширины - PullRequest
9 голосов
/ 06 февраля 2011

У меня много текстовых файлов с полями фиксированной ширины:

<c>     <c>       <c>
Dave    Thomas    123 Main
Dan     Anderson  456 Center
Wilma   Rainbow   789 Street

Остальные файлы находятся в аналогичном формате, где <c> помечает начало столбца, ноони имеют различную (неизвестную) ширину столбца и пространства.Как лучше всего проанализировать эти файлы?

Я пытался использовать Text::CSV, но, поскольку нет разделителя, трудно получить согласованный результат (если я не использую модуль неправильно):

my $csv = Text::CSV->new();
$csv->sep_char (' ');

while (<FILE>){
    if ($csv->parse($_)) {
        my @columns=$csv->fields();
        print $columns[1] . "\n";
    }
}

Ответы [ 3 ]

12 голосов
/ 06 февраля 2011

Как упоминает пользователь 604939, unpack - это инструмент, используемый для полей фиксированной ширины.Однако unpack необходимо передать шаблон для работы.Поскольку вы говорите, что ваши поля могут изменять ширину, решение состоит в том, чтобы создать этот шаблон из первой строки вашего файла:

my @template = map {'A'.length}        # convert each to 'A##'
               <DATA> =~ /(\S+\s*)/g;  # split first line into segments
$template[-1] = 'A*';                  # set the last segment to be slurpy

my $template = "@template";
print "template: $template\n";

my @data;
while (<DATA>) {
    push @data, [unpack $template, $_]
}

use Data::Dumper;

print Dumper \@data;

__DATA__
<c>     <c>       <c>
Dave    Thomas    123 Main
Dan     Anderson  456 Center
Wilma   Rainbow   789 Street

, которая печатает:

template: A8 A10 A*
$VAR1 = [
          [
            'Dave',
            'Thomas',
            '123 Main'
          ],
          [
            'Dan',
            'Anderson',
            '456 Center'
          ],
          [
            'Wilma',
            'Rainbow',
            '789 Street'
          ]
        ];
6 голосов
/ 06 февраля 2011

CPAN на помощь!

DataExtract :: FixedWidth не только анализирует файлы фиксированной ширины, но (на основе POD) выглядит достаточно умным, чтобы самостоятельно определять ширину столбца из строки заголовка!

3 голосов
/ 06 февраля 2011

Просто используйте функцию Perl unpack .Примерно так:

while (<FILE>) {
    my ($first,$last,$street) = unpack("A9A25A50",$_);

    <Do something ....>
}

Внутри шаблона распаковки, "A ###", вы можете поместить ширину поля для каждого А. Есть множество других форматов, которые вы можете использовать для смешиванияи сопоставлять с целочисленными полями и т. д. Если файл имеет фиксированную ширину, как файлы мэйнфреймов, то это должно быть самым простым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...