Как я могу извлечь все теги HTML со страницы. Не данные между тегами - PullRequest
0 голосов
/ 29 мая 2019

Извините, если это вопрос новичка.Я гуглил в течение часа, и я также проверил несколько вопросов на этом сайте, но я не могу понять это.

Я пытаюсь извлечь все теги (элементы) HTML с нескольких разных страниц.Мне не нужны данные между тегами HTML.Мне нужны только используемые теги, комментарии и т. Д.

Так что вывод, который я ищу, - это то, что находится между <>, я думаю.Например, если код

<head> title </head>
<body id=“body text”> blah blah blah </body>

, я хотел бы, чтобы вывод был:

<head> </head>
<body id=“body text”> </body>

Большое спасибо заранее и извините, если это глупый вопрос.

Ответы [ 3 ]

1 голос
/ 29 мая 2019

, если вы хотите что-то между <>, попробуйте:

sed -n  's/.*\(<.*>\).*/\1/p' xx.html
0 голосов
/ 29 мая 2019

Вы можете попробовать Perl

$ perl -0777 -ne ' while(/(<.+?>)/g) { print "$1\n" } ' input.txt
<head>
</head>
<body id=“body text”>
</body>

$
0 голосов
/ 29 мая 2019

Я создал файл со следующим содержимым:

<a><B>
nothing
<blabla>
</blabla>
</B>
</a>

Чтобы получить содержимое тегов, я использовал следующую команду:

grep -o "<[a-zA-Z0-9]*>" testtttt.txt

, которая дала следующий результат:

<a>
<B>
<blabla>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...