Question

Извините, если это вопрос новичка.Я гуглил в течение часа, и я также проверил несколько вопросов на этом сайте, но я не могу понять это.

Я пытаюсь извлечь все теги (элементы) HTML с нескольких разных страниц.Мне не нужны данные между тегами HTML.Мне нужны только используемые теги, комментарии и т. Д.

Так что вывод, который я ищу, - это то, что находится между <>, я думаю.Например, если код

<head> title </head>
<body id=“body text”> blah blah blah </body>

, я хотел бы, чтобы вывод был:

<head> </head>
<body id=“body text”> </body>

Большое спасибо заранее и извините, если это глупый вопрос.

Snakienn · Answer 1 · 29 мая 2019

, если вы хотите что-то между <>, попробуйте:

sed -n  's/.*\(<.*>\).*/\1/p' xx.html

stack0114106 · Answer 2 · 29 мая 2019

Вы можете попробовать Perl

$ perl -0777 -ne ' while(/(<.+?>)/g) { print "$1\n" } ' input.txt
<head>
</head>
<body id=“body text”>
</body>

$

Dominique · Answer 3 · 29 мая 2019

Я создал файл со следующим содержимым:

<a><B>
nothing
<blabla>
</blabla>
</B>
</a>

Чтобы получить содержимое тегов, я использовал следующую команду:

grep -o "<[a-zA-Z0-9]*>" testtttt.txt

, которая дала следующий результат:

<a>
<B>
<blabla>

Как я могу извлечь все теги HTML со страницы. Не данные между тегами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу извлечь все теги HTML со страницы. Не данные между тегами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов