Разбор HTML с помощью grep в CSV - PullRequest
0 голосов
/ 26 октября 2018

У меня есть HTML-файл, который включал информацию

<li>
<a title="Title_01" href="http://mysite.ru/test/portal/doc/#number=ABC01" target="_blank"><span class="i">ABC01  01/02    </span>(2006.01)</a>
</li>

<li>
<a title="Title_02" href="http://mysite.ru/test/portal/doc/#number=ABC02" target="_blank"><span class="i">ABC02  02/02    </span>(2006.01)</a>
</li>



<p>(73) Name(test):<b>
<br>MY TEST ORGANIZATION (TT)</b>
</p>

Я могу выполнить синтаксический анализ данных с помощью команды grep и после того, как вручную подключу данные в Excel

grep "number=" *.html > tt.txt

Но есть ли какой-нибудь способ сделать это с помощью grep, чтобы я получил результат в CSV-файл, например

    MY TEST ORGANIZATION, ABC01
    MY TEST ORGANIZATION, ABC02

Ответы [ 2 ]

0 голосов
/ 26 октября 2018

awk -F "[> | \" | =] "'/ number = / {print" МОЯ ИСПЫТАТЕЛЬНАЯ ОРГАНИЗАЦИЯ, файл "$ 7}"

МОЯ ИСПЫТАТЕЛЬНАЯ ОРГАНИЗАЦИЯ, ABC01

МОЯ ИСПЫТАТЕЛЬНАЯ ОРГАНИЗАЦИЯ, ABC02

с помощью awk это возможно!

0 голосов
/ 26 октября 2018

Что ж, мы можем добиться большего успеха с помощью awk, но, если вам нужен быстрый ответ, это работает:

grep "number=" file | sed 's/number=/MY TEST ORGANIZATION, /g;s/"//g' | cut -d# -f2

результат:

MY TEST ORGANIZATION, ABC01
MY TEST ORGANIZATION, ABC02
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...