Команда sed для удаления недопустимого символа xml не работает - PullRequest
0 голосов
/ 27 апреля 2020

Я действительно новичок в regex, и я следовал за другими ответами StackOverflow, чтобы сделать команду sed для удаления недопустимых XML символов.

sed -ie 's/[^\u0009\r\n\u0020-\uD7FF\uE000-\uFFFD\ud800\udc00-\udbff\udfff]//g' myfile.xml

Когда я запускаю это, похоже, что он удаляет кучу алфавиты ,,, например, если это компания, он удаляет o, m, p, a, y, et c. Особенно в нижнем регистре.

Что-то не так с моим регулярным выражением ИЛИ может быть, оно не воспринимается как регулярное выражение. Не могли бы вы помочь мне? Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...