$ cat downloaded_file.html 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM
Как мне найти html-файл в моем сценарии оболочки и выбрать уникальные имена файлов, которые начинаются с STDMON и заканчиваются _company.txt
STDMON
_company.txt
Если у вас есть только цифры от STDMON до _company.txt, вы можете сделать:
grep -o 'STDMON[0-9]*_company\.txt' input.txt | sort -u
Посмотреть это
Иесли что-то можно сделать:
grep -oP 'STDMON.*?_company\.txt' input.txt | sort -u
awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++' download_file.html
$ cat downloaded_file.html 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON14959440_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON14959440_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON11202010_company.txt</A><br> Monday, November 22, 2010 1:31 AM 1373 <A HREF="http://site.com/STDMON11202010_company.txt">STDMON12342440_company.txt</A><br> Monday, November 22, 2010 1:31 AM
$ awk -F'>|<' '$3 ~ /STDMON[0-9]+_company.txt/ && !a[$0=$3]++' STDMON11202010_company.txt STDMON14959440_company.txt STDMON12342440_company.txt