Вот пример моего разобранного файла JSON после предварительной обработки статьи Википедии XML. Как бы я избавился (внутри текстового тела) от всего, кроме <a href="..."...></a>
?
Например, я нашел это регулярное выражение в Интернете, которое полностью выполняет свою работу, находя все ссылки, но как бы отрицать это? чтобы регулярное выражение удаляло все остальное и сохраняло ссылки?
<a\s+(?:[^>]*?\s+)?href=\\(["'])(.*?)\1
Исходный текст {"id": "12", "url": "https://en.wikipedia.org/wiki?curid=12", "title": "Anarchism", "text": "AnarchismAnarchism is an <a href="Anti-authoritarianism">anti-authoritarian</a> <a href="Political philosophy">political</a> and <a href="Social philosophy">social philosophy</a> that rejects ...
Желаемый текст {"id": "12", "url": "https://en.wikipedia.org/wiki?curid=12", "title": "Anarchism", "text": "<a href="Anti-authoritarianism">anti-authoritarian</a> <a href="Political philosophy">political</a> <a href="Social philosophy">social philosophy</a> ...
Если целостность формата JSON не может быть сохранена, это будет хорошо. Кроме того, я могу выполнить дальнейшую обработку, чтобы позже удалить теги HTML.