Разделите больший файл на маленькие, основываясь на регулярном выражении, второе мнение - PullRequest
2 голосов
/ 28 июня 2011

Хорошо, я читал о разных способах сделать это, но я просто хочу проверить, была ли невидимая проблема с тем, как я это сделал, или есть лучший способ (возможно, grep?) .

Вот мой рабочий код:

#!usr/bin/perl

use strict;
use warnings;

my $chapternumber;
open my $corpus, '<', "/Users/jon/Desktop/chpts/chpt1-8/Lifeprocessed.txt" or die $!;
while (my $sentence = <$corpus>) 
    {
    if ($sentence =~ /\~\s(\d*F*[\.I_]\w+)\s/ ) 
        {
        $chapternumber = $1;
        $chapternumber =~ s/\./_/;
        }

    open my $outfile, '>>', "/Users/jon/Desktop/chpts/chpt$chapternumber.txt" or die $!;
    print $outfile $sentence;
    }

Этот файл является учебником, и я обозначил новые главы следующим образом: ~ 1.1 Organisms Have Changed over Billions of Years 1.1. или ~ 15Intro ... или ~ F_14 Я хочу, чтобы это было начало нового файла: chpt1_1.txt (или другого chpt15Intro и т. Д.). ..). Который заканчивается, когда я нахожу следующий разделитель главы.

1 вариант: Возможно, вместо того, чтобы построчно, просто получить весь блок вот так? :

 local $/ = "~";
 open...
 while...
 next unless ($sentenceblock =~ /\~\s([\d+F][\.I_][\d\w]+)\s/);
....

Большое спасибо.

Ответы [ 3 ]

8 голосов
/ 28 июня 2011

Во-первых, хорошие вещи:

enabled strict and warnings
using 3-arg open and lexical filehandles
checking the return value from open()

Но ваше регулярное выражение вообще не имеет смысла.

~ is not "meta" in regexes, so it does not need escaping
. is not "meta" in a character class, so it does not need escaping
[\d+F] is equivalent to [+F\d] (what is the "F" for? + matches a literal plus character in a character class, it does NOT mean "one or more" here
[\.I_] what is the "I" for? What is the underscore for?
[\d\w] is equivalent to [\w] and even to just \w

Ваш код вызывает open () гораздо чаще, чем нужно.

tr /// лучше, чем s ///, для работы с отдельными символами.

Надеюсь, это выведет вас на правильный путь:

#!/usr/bin/perl
use warnings;
use strict;

my $outfile;
while (<DATA>) {
    if ( my($chapternumber) = /^~\s([\d.]+)/) {
        $chapternumber =~ tr/./_/;
        close $outfile if $outfile;
        open $outfile, '>', "chpt$chapternumber.txt"
            or die "could not open 'chpt$chapternumber.txt' $!";
    }
    print {$outfile} $_;
}

__DATA__
~ 1.1 Organisms Have Changed over Billions of Years 1.1
stuff
about changing
organisms
~ 1.2 Chapter One, Part Two 1.2
part two
stuff is here
1 голос
/ 28 июня 2011

хм .. возможно csplit?

Сохраните в файл следующее, например. splitter.sh

csplit -s -f tmp - '/^~ [0-9][0-9]*\./'
ls tmp* | while read file
do
    title=($(head -1 $file))
    mv $file chpt${title[1]//./_}.txt
done

и используйте его

bash splitter.sh < book.txt
0 голосов
/ 28 июня 2011

Почему бы просто не выпить все содержимое?Тогда вы можете просто сопоставить каждый заголовок главы./m сопоставляет ^ со всеми началами строк в многострочной строке, а /g сопоставляет один и тот же шаблон со всеми совпадениями в while до тех пор, пока не появится больше совпадений.man perlre.

#!/usr/bin/perl

use strict;
use warnings;

open my $corpus, '<', '/Users/jon/..../Lifeprocessed.txt' or die $!;
undef $/;
my $contents = <$corpus>;
close($corpus);

while ( $contents =~ /^\~\s([\d+F][\.I_][\d\w]+)\s/mg ) {
    ( my $chapternumber = $1 ) =~ s/\./_/;
    open my $outfile, '>>', "/Users/jon/Desktop/chpts/chpt$chapternumber.txt" or die $!;
    print $outfile $sentence;
    close $outfile;
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...