Как удалить недопустимые символы из XML-файла, используя sed или Perl - PullRequest
6 голосов
/ 14 октября 2011

Я хочу избавиться от всех недопустимых символов; пример hexadecimal value 0x1A из XML-файла с использованием sed.
Что такое регулярное выражение и командная строка?
EDIT
Добавлен тег Perl в надежде получить больше ответов. Я предпочитаю однострочное решение.
EDIT
Это действительные символы XML

x9 | xA | xD | [x20-xD7FF] | [xE000-xFFFD] | [x10000-x10FFFF]

Ответы [ 4 ]

8 голосов
/ 15 октября 2011

Предполагается, что XML-документы UTF-8:

perl -CSDA -pe'
   s/[^\x9\xA\xD\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]+//g;
' file.xml > file_fixed.xml

Если вместо этого вы хотите закодировать плохие байты,

perl -CSDA -pe'
   s/([^\x9\xA\xD\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}])/
      "&#".ord($1).";"
   /xeg;
' file.xml > file_fixed.xml

Вы можете назвать это несколькими разными способами:

perl -CSDA     -pe'...' file.xml > file_fixed.xml
perl -CSDA -i~ -pe'...' file.xml     # Inplace with backup
perl -CSDA -i  -pe'...' file.xml     # Inplace without backup
2 голосов
/ 15 октября 2011

Команда tr будет проще.Итак, попробуйте что-то вроде:

cat <filename> | tr -d '\032' > <newfilename>

Обратите внимание, что символ ascii '0x1a' имеет восьмеричное значение '032', поэтому мы используем его вместо tr.Не уверен, если tr любит гекс.

0 голосов
/ 28 сентября 2018

На самом деле есть способ сделать это с помощью sed, например:

cat input_file | LANG=C sed -E \
   -e 's/.*/& /g' \
   -e 's/(('\
'[\x9\xa\xd\x20-\x7f]|'\
'[\xc0-\xdf][\x80-\xbf]|'\
'[\xe0-\xec][\x80-\xbf][\x80-\xbf]|'\
'[\xed][\x80-\x9f][\x80-\xbf]|'\
'[\xee-\xef][\x80-\xbf][\x80-\xbf]|'\
'[\xf0][\x80-\x8f][\x80-\xbf][\x80-\xbf]'\
')*)./\1?/g' \
   -e 's/(.*)\?/\1/g' \
   -e 's|]]>|]]>]]<![CDATA[>|g' > output_file

Это работает в четыре этапа:

  1. Добавить один символ пробела в конец каждой строки.
  2. Заменить каждую последовательность допустимых символов, за которой следует любой символ с той же последовательностью юридических символов, за которыми следует знак вопроса символ (вместо любого). Обратите внимание, что в строке, состоящей только из допустимых символов, символ '.' соответствует последнему символ в строке, поэтому мы добавили пробел в шаге 1.
  3. Удалите последний символ в строке, который, как мы ожидаем, будет знаком вопроса.
  4. Заменить строку ']]>' на ']]>]]'.

Переменная LANG = C env установлена ​​так, чтобы sed не выполнял преобразование кодировки самостоятельно - он должен обрабатывать каждый символ как 8-битный ascii.

0 голосов
/ 15 октября 2011

Попробуйте:

perl -pi -e 's/[^\x9\xA\xD\x20-\x{d7ff}\x{e000}-\x{fffd}\x{10000}-\x{10ffff}]//g' file.xml
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...