У меня около 2000 документов, из которых я пытаюсь получить метаданные.Прямо сейчас метаданные жестко закодированы как содержимое в верхней части документа.
Некоторые данные: каждая страница генерируется с <script>...</script>
в заголовке, и мне больше не нужно собирать данные, начиная с первого экземпляра <p style=...
, поэтому я могу использовать эти теги в качестве «начала» имаркеры «конца».
Мне не нужны теги, только текст, и я предпочел бы вывод текста с разделителями, 9 столбцов, каждый столбец представляет данные.(например, столбцы будут Desc, RefNum, Replaces, SpecCond, States, How, When, Owner, ChgDate
, и каждая строка будет представлять данные одного документа - одна строка на документ HTML).
Я также стараюсь максимально автоматизировать это, поэтому мне нужен инструмент, который будет сканировать путь и его подкаталоги, ища * .html и удаляя содержимое.
Я не совсем уверен, с чего начать.Мысли?
</script>
<!-- -->
<!-- BEGIN CAPTURE HERE -->
<!-- -->
<h1>Additional Deposit Warning</h1>
<p class="Plain_Text"><font style="font-family:'Arial';">Description: Additional Deposit</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Reference Number: 897</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Replaces Letter: CIBS 417</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Special Conditions: NA</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">States Applicable: WI, MI</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">How Generated: User Selects In CSS</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">When Generated: Additional deposit may be needed</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Owner: Credit - Deposits</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Last change letter: March 27, 2003</font></p>
<!-- -->
<!-- END CAPTURE HERE -->
<!-- -->
<p style="margin-top:0;margin-bottom:0"> </p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;">#Mdate</font></p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;"><br />