Question

Хорошо, я читал о разных способах сделать это, но я просто хочу проверить, была ли невидимая проблема с тем, как я это сделал, или есть лучший способ (возможно, grep?) .

Вот мой рабочий код:

#!usr/bin/perl

use strict;
use warnings;

my $chapternumber;
open my $corpus, '<', "/Users/jon/Desktop/chpts/chpt1-8/Lifeprocessed.txt" or die $!;
while (my $sentence = <$corpus>) 
    {
    if ($sentence =~ /\~\s(\d*F*[\.I_]\w+)\s/ ) 
        {
        $chapternumber = $1;
        $chapternumber =~ s/\./_/;
        }

    open my $outfile, '>>', "/Users/jon/Desktop/chpts/chpt$chapternumber.txt" or die $!;
    print $outfile $sentence;
    }

Этот файл является учебником, и я обозначил новые главы следующим образом: ~ 1.1 Organisms Have Changed over Billions of Years 1.1. или ~ 15Intro ... или ~ F_14 Я хочу, чтобы это было начало нового файла: chpt1_1.txt (или другого chpt15Intro и т. Д.). ..). Который заканчивается, когда я нахожу следующий разделитель главы.

1 вариант: Возможно, вместо того, чтобы построчно, просто получить весь блок вот так? :

 local $/ = "~";
 open...
 while...
 next unless ($sentenceblock =~ /\~\s([\d+F][\.I_][\d\w]+)\s/);
....

Большое спасибо.

tadmc · Answer 1 · 28 июня 2011

Во-первых, хорошие вещи:

enabled strict and warnings
using 3-arg open and lexical filehandles
checking the return value from open()

Но ваше регулярное выражение вообще не имеет смысла.

~ is not "meta" in regexes, so it does not need escaping
. is not "meta" in a character class, so it does not need escaping
[\d+F] is equivalent to [+F\d] (what is the "F" for? + matches a literal plus character in a character class, it does NOT mean "one or more" here
[\.I_] what is the "I" for? What is the underscore for?
[\d\w] is equivalent to [\w] and even to just \w

Ваш код вызывает open () гораздо чаще, чем нужно.

tr /// лучше, чем s ///, для работы с отдельными символами.

Надеюсь, это выведет вас на правильный путь:

#!/usr/bin/perl
use warnings;
use strict;

my $outfile;
while (<DATA>) {
    if ( my($chapternumber) = /^~\s([\d.]+)/) {
        $chapternumber =~ tr/./_/;
        close $outfile if $outfile;
        open $outfile, '>', "chpt$chapternumber.txt"
            or die "could not open 'chpt$chapternumber.txt' $!";
    }
    print {$outfile} $_;
}

__DATA__
~ 1.1 Organisms Have Changed over Billions of Years 1.1
stuff
about changing
organisms
~ 1.2 Chapter One, Part Two 1.2
part two
stuff is here

jm666 · Answer 2 · 28 июня 2011

хм .. возможно csplit?

Сохраните в файл следующее, например. splitter.sh

csplit -s -f tmp - '/^~ [0-9][0-9]*\./'
ls tmp* | while read file
do
    title=($(head -1 $file))
    mv $file chpt${title[1]//./_}.txt
done

и используйте его

bash splitter.sh < book.txt

unpythonic · Answer 3 · 28 июня 2011

Почему бы просто не выпить все содержимое?Тогда вы можете просто сопоставить каждый заголовок главы./m сопоставляет ^ со всеми началами строк в многострочной строке, а /g сопоставляет один и тот же шаблон со всеми совпадениями в while до тех пор, пока не появится больше совпадений.man perlre.

#!/usr/bin/perl

use strict;
use warnings;

open my $corpus, '<', '/Users/jon/..../Lifeprocessed.txt' or die $!;
undef $/;
my $contents = <$corpus>;
close($corpus);

while ( $contents =~ /^\~\s([\d+F][\.I_][\d\w]+)\s/mg ) {
    ( my $chapternumber = $1 ) =~ s/\./_/;
    open my $outfile, '>>', "/Users/jon/Desktop/chpts/chpt$chapternumber.txt" or die $!;
    print $outfile $sentence;
    close $outfile;
}

Разделите больший файл на маленькие, основываясь на регулярном выражении, второе мнение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разделите больший файл на маленькие, основываясь на регулярном выражении, второе мнение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов