У меня есть каталог html-файлов, любезно предоставленный wget, и мне нужно извлечь тег заголовка и все метаданные из каждого файла - но отдельно, чтобы я мог скопировать / вставить в электронную таблицу (хорошо, если бы я был лучшесценарии это не будет требованием).У меня есть сценарий с двумя проблемами - он производит много лишних пробелов при извлечении, и когда я пытался записать его в файл, размер файла составлял 600 ГБ (без шуток, хорошо, я перенаправил его на свой внешний),Я открыт для любого решения, присущего * NIX.TIA за любую помощь.
#!/bin/bash
for LINE in `cat htmllist.txt`
do
awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' $LINE
done