Question

Я ищу стандартный, утвержденный и надежный способ удаления недопустимых символов из строк перед записью их в файл XML. Я говорю здесь о блоках текста, содержащих возврат (^ H) и символы при подаче и т. Д.

Там имеет для стандартной функции библиотеки / модуля, но я не могу ее найти.

Я использую XML :: LibXML для построения дерева DOM, которое затем сериализовываю на диск.

Heiko · Answer 1 · 25 сентября 2009

Полное регулярное выражение для удаления недопустимых символов xml-1.0:

# #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
$str =~ s/[^\x09\x0A\x0D\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]//go;

для xml-1.1 это:

# allowed: [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
$str =~ s/[^\x01-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]//go;
# restricted:[#x1-#x8][#xB-#xC][#xE-#x1F][#x7F-#x84][#x86-#x9F]
$str =~    s/[\x01-\x08\x0B-\x0C\x0E-\x1F\x7F-\x84\x86-\x9F]//go;

Nic Gibson · Answer 2 · 19 июня 2009

Как и почти все остальные, используйте регулярное выражение. Это, честно говоря, не достаточно сложно, чтобы быть достойным добавления в библиотеку. Предварительно обработайте ваш текст с заменой.

Ваш комментарий о приведенных выше переводах строки предполагает, что форматирование имеет для вас некоторое значение, поэтому вам, возможно, придется решить, на что именно вы хотите заменить некоторые символы.

Список недопустимых символов четко определен в спецификации XML (здесь - например, http://www.w3.org/TR/REC-xml/#charsets). Запрещенные символы - это возврат каретки строки управления ASCII, перевод строки и табуляция. Итак, вы смотрите на класс символов из 29 регулярных выражений. Это не так уж и плохо.

Что-то вроде:

$text =~ s/[\x00-\x08 \x0B \x0C \x0E-\x19]//g;

должен это сделать.

Juan A. Navarro · Answer 3 · 11 июня 2010

Я нашел решение, но оно использует команду iconv вместо perl.

$ iconv -c -f UTF-8 -t UTF-8 invalid.utf8 > valid.utf8

Решения, приведенные выше на основе регулярных выражений, не работают !! , рассмотрим следующий пример:

$ perl -e 'print "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n<root>\x{A0}\x{A0}</root>"' > invalid.xml
$ perl -e 'use XML::Simple; XMLin("invalid.xml")'
invalid.xml:2: parser error : Input is not proper UTF-8, indicate encoding !
Bytes: 0xA0 0xA0 0x3C 0x2F
$ perl -ne 's/[^\x09\x0A\x0D\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]//go; print' invalid.xml > valid.xml
$ perl -e 'use XML::Simple; XMLin("valid.xml")'
invalid.xml:2: parser error : Input is not proper UTF-8, indicate encoding !
Bytes: 0xA0 0xA0 0x3C 0x2F

Фактически, два файла invalid.xml и valid.xml идентичны .

Дело в том, что диапазон "\ x20- \ x {D7FF}" соответствует действительным представлениям этих символов Юникода, но не например. недопустимая последовательность символов "\ x {A0} \ x {A0}".

Axeman · Answer 4 · 19 июня 2009

Перевод лот быстрее, чем подстановка регулярных выражений. Особенно, если все, что вы хотите сделать, удалить символы. Используя набор тритона:

$string_to_clean =~ tr/\x00-\x08\x0B\x0C\x0E-\x19//d;

Тест, подобный этому:

cmpthese 1_000_000
       , { translate => sub { 
               my $copy = $text; 
               $copy =~ tr/\x00-\x08\x0B\x0C\x0E-\x19//d; 
           }
           , substitute => sub { 
               my $copy = $text; 
               $copy =~ s/[\x00-\x08\x0B\x0C\x0E-\x19]//g; 
           }
         };

yeilded:

                Rate substitute  translate
substitute  287770/s         --       -86%
translate  2040816/s       609%         --

И чем больше символов мне нужно было удалить, тем быстрее получается значение tr.

Leonardo Herrera · Answer 5 · 19 июня 2009

Хорошо, похоже, это уже ответили, но что за эй? Если вы хотите создавать документы XML, вы должны использовать библиотеку XML.

#!/usr/bin/perl
use strict;
use XML::LibXML;

my $doc = XML::LibXML::Document->createDocument('1.0');
$doc->setURI('http://example.com/myuri');
$doc->setDocumentElement($doc->createElement('root-node'));

$doc->documentElement->appendTextChild('text-node',<<EOT);
    This node contains &, ñ, á, <, >...
EOT

print $doc->toString;

Это производит следующее:

$ perl test.pl
<?xml version="1.0"?>
<root-node><text-node>    This node contains &amp;, &#x6C821;, &lt;, &gt;...
</text-node></root-node>

Редактировать: Теперь я вижу, что вы уже используете XML :: LibXML. Это должно сработать.

Quentin · Answer 6 · 19 июня 2009

Если вы используете библиотеку XML для создания своего XML (в отличие от конкатенации строк, простых шаблонов и т. Д.), То вам следует позаботиться об этом. Нет смысла изобретать велосипед.

Nic Wolff · Answer 7 · 14 августа 2013

Аксеман прав насчет использования tr, но он и Ньют сделали небольшую ошибку, инвертировав диапазон допустимых символов спецификации XML.http://www.w3.org/TR/REC-xml/#charsets дает

Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

, и поскольку шестнадцатеричное число перед \x20 равно \x1F (не \x19!), Вы должны использовать

$string_to_clean =~ tr/\x00-\x08\x0B\x0C\x0E-\x1F//d;

ysth · Answer 8 · 19 июня 2009

Я не проделал большую работу с XML, содержащим «недопустимые» символы, но мне кажется, у вас здесь две совершенно разные проблемы.

Во-первых, в ваших данных есть символы, которые вам могут не понадобиться. Вы должны решить, что это такое и как вы хотите удалить / заменить их независимо от каких-либо ограничений XML. Например, у вас могут быть такие вещи, как x^H_y^H_z^H_, где вы решите, что хотите убрать как клавишу возврата, так и следующий символ. Или, возможно, вы на самом деле не хотите корректировать свои данные, но чувствуете необходимость сделать это в XML.

Обновление: я сохранил следующие абзацы для потомков, но они основаны на недоразумении: я думал, что вы можете включить любой символ в данные XML, если вы правильно его кодировали, но, похоже, есть некоторые символы, которые прямой верботен, даже закодированы? XML :: LibXML удаляет их (по крайней мере, в текущей версии), за исключением символа nul, который он обрабатывает как конец строки, отбрасывая его и все, что следует за ним: (

Во-вторых, в ваших данных могут быть символы, которые вы сохранили и которые нуждаются в кодировке в XML. В идеале, какой бы модуль XML вы ни использовали, он бы сделал это для вас, но если это не так, вы должны сделать это вручную, например:

use HTML::Entities "encode_entities_numeric";
$encoded_string = encode_entities_numeric( $string, "\x00-\x08\x0B\x0C\x0E-\x19");

Но на самом деле это просто временная мера. Используйте правильный модуль XML; см. например этот ответ .

aks · Answer 9 · 19 июня 2009

Вы можете использовать простое регулярное выражение , чтобы найти и заменить все управляющие символы в вашем фрагменте текста, заменив их либо пробелом, либо полностью удалив их -

# Replace all control characters with a space
$text =~ s/[[:cntrl:]]/ /g;

# or remove them
$text =~ s/[[:cntrl:]]//g;

AnthonyWJones · Answer 10 · 19 июня 2009

Вы можете использовать регулярное выражение для удаления управляющих символов, например, \ cH будет совпадать с \ cL или \ x08 и \ x0C, и совпадать с backspace и Formfeed соответственно.

Как я могу удалить недопустимые символы XML из строк в Perl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу удалить недопустимые символы XML из строк в Perl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов