парсинг с потоком текста - PullRequest
1 голос
/ 20 мая 2011

У меня есть около двух страниц текста в текстовом формате. Текст организован в две колонки. Я хочу разобрать текст. Однако я не могу прочитать первый столбец, а затем второй столбец. У меня нет никакой программы, так как я даже не знаю, с чего начать. Я планировал использовать Perl для разбора, но помощь на любом другом языке также может помочь мне начать, или даже какое-то общее направление.

1 Ответ

2 голосов
/ 20 мая 2011

Если это MSWord, то вы можете просто использовать модель автоматизации с Win32::OLE

Следующий код может работать для вас или, по крайней мере, для начала:

use strict;
use warnings;
use List::Util qw<first>;
use Win32::OLE qw<in>;

my $word = Win32::OLE->GetObject( 'C:\Path\Doc.doc' );
my $doc  = $word->{ActiveDocument};
my $col_sect 
    = first { $_-> {PageSetup}{TextColumns}{Count} > 1 } in $doc->Sections
    ;
my $text = $col_sect->{Range}{Text};
...