пакетное редактирование html файлов - PullRequest
3 голосов
/ 28 сентября 2011

У меня есть коллекция из тысячи HTML-файлов, и мне нужно несколько обрезать их. Мне нужно удалить все теги в области <body></body> из них, кроме одного, <div.pg>, чтобы сделать их чистыми для печати. лишние - навигационные ссылки, которые делают распечатки грязными и заставляют страницы занимать больше бумаги. содержимое не одинаковое, поэтому я не могу найти и заменить фрагмент кода, но теги - это тот же пример, что и 3 <table> тега, которые нужно удалить, каждый с определенным классом. манипулировать определенными тегами внутри пакетных файлов HTML?

Любая техника или программное обеспечение пакетной обработки для этой работы? Какое простое решение для Windows?

Ответы [ 2 ]

2 голосов
/ 28 сентября 2011

Я бы использовал преобразование xslt на каждой HTML-странице, которая у вас есть. Пакет не является инструментом для манипулирования HTML-файлами. Вы можете использовать пакет в качестве «менеджера» для передачи требуемого файла в преобразование xsl. Также в Windows есть элементарная утилита msxml, которую вы можете загрузить и установить на свой компьютер: http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=21714

Вот как бы я это сделал. Я уверен, что есть еще варианты.

0 голосов
/ 28 сентября 2011

Если это XHTML, вы можете использовать XSLT для преобразования вашего HTML в «другой» формат. Посмотрите, например, здесь: http://www.w3schools.com/xsl/ или здесь: http://help.hannonhill.com/discussions/how-do-i/269-strip-specific-html-tag-in-xslt

...