Как я могу удалить html теги, скрипты, пустые строки в HTML с помощью sed? - PullRequest
0 голосов
/ 06 марта 2020

Я пробовал это несколькими способами, но я не могу это сделать.

sed -e "s/<!---* *<\(.*\)> *-->/<\1>/" test.html

Я нашел это здесь, но я не знаю, как продолжить это.

1 Ответ

0 голосов
/ 07 марта 2020

Я пробовал следующий скрипт, чтобы удалить html / tags и вывести то, что осталось .

Входной файл: (тест. txt)

<!DOCTYPE html>

  <head>

    <script>
      function myFunction() {
        document.getElementById("demo").innerHTML = "Paragraph changed.";
      }
    </script>

    <title>Sample page</title>

    <style>
      html { color: #837456; }
      body { background: white; }
    </style>

  </head>

  <body>
    <p>Hello here!</p>
  </body>

</html>

Команда была

cat test.txt | sed 's/$/©/' | tr -d '\n' | sed 's/<script.*<\/script>//g' | sed 's/<[^>]*>//g' | sed 's/©/\n/g' | sed '/^ *$/d' | sed 's/^ *//'

И получилось:

Sample page
html { color: #837456; }
body { background: white; }
Hello here!
...