Какие инструменты доступны для эффективного анализа и очистки этого HTML-кода? - PullRequest
0 голосов
/ 30 марта 2012

У меня около 2000 документов, из которых я пытаюсь получить метаданные.Прямо сейчас метаданные жестко закодированы как содержимое в верхней части документа.

Некоторые данные: каждая страница генерируется с <script>...</script> в заголовке, и мне больше не нужно собирать данные, начиная с первого экземпляра <p style=..., поэтому я могу использовать эти теги в качестве «начала» имаркеры «конца».

Мне не нужны теги, только текст, и я предпочел бы вывод текста с разделителями, 9 столбцов, каждый столбец представляет данные.(например, столбцы будут Desc, RefNum, Replaces, SpecCond, States, How, When, Owner, ChgDate, и каждая строка будет представлять данные одного документа - одна строка на документ HTML).

Я также стараюсь максимально автоматизировать это, поэтому мне нужен инструмент, который будет сканировать путь и его подкаталоги, ища * .html и удаляя содержимое.

Я не совсем уверен, с чего начать.Мысли?

</script>
<!--                        -->
<!--  BEGIN CAPTURE HERE    --> 
<!--                        -->
<h1>Additional Deposit Warning</h1>
<p class="Plain_Text"><font style="font-family:'Arial';">Description: Additional Deposit</font></p>        
<p class="Plain_Text"><font style="font-family:'Arial';">Reference Number: 897</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Replaces Letter: CIBS 417</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Special Conditions: NA</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">States Applicable: WI, MI</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">How Generated: User Selects In CSS</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">When Generated: Additional deposit may be needed</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Owner: Credit - Deposits</font></p>
<p class="Plain_Text"><font style="font-family:'Arial';">Last change letter: March 27, 2003</font></p>
<!--                        -->
<!--  END CAPTURE HERE      --> 
<!--                        -->
<p style="margin-top:0;margin-bottom:0">&#160;</p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;">#Mdate</font></p>
<p><font style="font-family:'Times New Roman'; font-size:12pt;"><br />

1 Ответ

0 голосов
/ 13 августа 2012

Я закончил с использованием JavaScript.Потребовалось несколько переписываний, чтобы учесть аномальные данные, но в целом все работало хорошо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...