Включает переписывание .htm в .txt (выходной файл)
затем с помощью парсера (синтаксический анализатор грамматики Стэнфорда) (выходной файл)
для всех файлов в каталоге.
МОЙ ВОПРОС: Я хотел бы получить все файлы в каталоге, не делая это вручную, и найти способ запустить парсер, не вводя его в терминал для каждого файла.
Вот мой код:
#!/usr/bin/perl
use strict;
use warnings;
use HTML::FormatText;
use HTML::TreeBuilder;
my $tree = HTML::TreeBuilder->new->parse_file("chpt15Intro.htm");
use HTML::FormatText;
my $formatter = HTML::FormatText->new(leftmargin => 0, rightmargin => 1000);
#print $formatter->format($tree); is replaced by push
push (my @files, $formatter->format($tree));
foreach my $files (@files) {
$files =~ s/^\s+//mg;
open MYFILE, ">ch15Intro.txt";
select MYFILE;
print $files;
}
В Terminal после преобразования html-файла пишу:
script parsedch15Intro.txt ./lexparser.csh ch15Intro.txt
чтобы сохранить вывод парсера. Этот шаг все еще нуждается в автоматизации.
Я новичок, так что спасибо за любой совет.