Я действительно новичок в regex, и я следовал за другими ответами StackOverflow, чтобы сделать команду sed для удаления недопустимых XML символов.
sed -ie 's/[^\u0009\r\n\u0020-\uD7FF\uE000-\uFFFD\ud800\udc00-\udbff\udfff]//g' myfile.xml
Когда я запускаю это, похоже, что он удаляет кучу алфавиты ,,, например, если это компания, он удаляет o, m, p, a, y, et c. Особенно в нижнем регистре.
Что-то не так с моим регулярным выражением ИЛИ может быть, оно не воспринимается как регулярное выражение. Не могли бы вы помочь мне? Спасибо.