Мне нужно очистить твиттерный корпус в XML, я проанализировал его с помощью `XML :: LibXML .
original.xml
<?xml version="1.0" encoding="UTF-8"?>
<tweets>
<tweet>
<tweetid>768213876278165504</tweetid>
<user>OnceBukowski</user>
<content>@caca, #holadictadura, RT no me daaaaaa la gana</content>
</tweet>
<tweet>
main.pl
my $filename = 'original.xml';
my $dom = XML::LibXML->load_xml( location => $filename );
foreach my $tweet ( $dom->findnodes( '//tweet' ) ) {
my ( $content ) = $tweet->findvalue( './content' );
#say $content;
#~ $content =~ s///g;
$content =~ s/@//g;
$content =~ s/#/tío/g;
$content =~ s/ k /que/g;
$content =~ s/ ke /que/g;
$content =~ s/pls/por favor/g;
#say $content; }
Я не понимаю, почему при печати:
print $dom->toString;
Изменения, которые я сделал в $content
, не были включены / вставлены в вывод.
Я читал, что вы можете заменить узел содержимого на appendText
, но это не работает для меня.