Я пробовал следующий скрипт, чтобы удалить html / tags и вывести то, что осталось .
Входной файл: (тест. txt)
<!DOCTYPE html>
<head>
<script>
function myFunction() {
document.getElementById("demo").innerHTML = "Paragraph changed.";
}
</script>
<title>Sample page</title>
<style>
html { color: #837456; }
body { background: white; }
</style>
</head>
<body>
<p>Hello here!</p>
</body>
</html>
Команда была
cat test.txt | sed 's/$/©/' | tr -d '\n' | sed 's/<script.*<\/script>//g' | sed 's/<[^>]*>//g' | sed 's/©/\n/g' | sed '/^ *$/d' | sed 's/^ *//'
И получилось:
Sample page
html { color: #837456; }
body { background: white; }
Hello here!