У меня есть файл, который содержит поврежденный XML. В конце строки есть некоторые символы мусора, от которых я хочу избавиться. Эти символы мусора не позволяют мне использовать синтаксический анализатор Python XML. Пример:
<request><pair><name>q</name><value><![CDATA[LOL]]></value></pair><pair><name>start</name><value>1</value></pair></request>�J I�i�Y�Y��'z�3�u�J�5��}���#Q/k;!�ˑ�9Q){_������ŐF
<request><pair><name>q</name><value><![CDATA[LOL2]]></value></pair><pair><name>start</name><value>1</value></pair></request>4/lIT�l��'�c�Oֲ�{�;��_?��(>͏Y�mP��
Как удалить символы мусора после </request>
? Или, другими словами, Как удалить строку между </request>
и <request>
?
Обратите внимание: от <request>
до </request>
это всего одна строка, поэтому
Код:
awk '/<request>/ , /<\/request>/' test.txt
не работает.
Моя цель состоит в том, чтобы извлечь значение, когда name равно «q» (LOL и LOL2) в этом случае. Так что, если это можно сделать легко, меня не беспокоит удаление ненужных символов.
Спасибо за ваше время.