Как мне сопоставить все остальное, кроме ссылок, которые похожи на <a href="..."> ... </a>? - PullRequest
0 голосов
/ 16 апреля 2020

Вот пример моего разобранного файла JSON после предварительной обработки статьи Википедии XML. Как бы я избавился (внутри текстового тела) от всего, кроме <a href="..."...></a>?

Например, я нашел это регулярное выражение в Интернете, которое полностью выполняет свою работу, находя все ссылки, но как бы отрицать это? чтобы регулярное выражение удаляло все остальное и сохраняло ссылки?

<a\s+(?:[^>]*?\s+)?href=\\(["'])(.*?)\1

Исходный текст {"id": "12", "url": "https://en.wikipedia.org/wiki?curid=12", "title": "Anarchism", "text": "AnarchismAnarchism is an <a href="Anti-authoritarianism">anti-authoritarian</a> <a href="Political philosophy">political</a> and <a href="Social philosophy">social philosophy</a> that rejects ...

Желаемый текст {"id": "12", "url": "https://en.wikipedia.org/wiki?curid=12", "title": "Anarchism", "text": "<a href="Anti-authoritarianism">anti-authoritarian</a> <a href="Political philosophy">political</a> <a href="Social philosophy">social philosophy</a> ...

Если целостность формата JSON не может быть сохранена, это будет хорошо. Кроме того, я могу выполнить дальнейшую обработку, чтобы позже удалить теги HTML.

...