Нужен скрипт или программное обеспечение для изменения большого количества HTML-файлов одновременно - PullRequest
0 голосов
/ 17 декабря 2011

У меня около 3400 файлов в древовидной структуре (около 80% - это html-файлы).

  1. Мне нужно изменить каждый html-файл, чтобы удалить стиль

    и старые вещи, такие как атрибут шрифта идобавить другой стиль.

  2. Мне нужно изменить корень всех ссылок, которые находятся в HTML.например, изменить / старый / путь / на / новый / путь в атрибуте href.
  3. Мне нужно удалить некоторые ссылки.например, ссылки, указывающие на google.com, должны быть удалены, поэтому <a href="http://www.google.com">as google said</a> должно быть только "как сказал Google".

Есть ли какое-либо программное обеспечение, которое может сделать это для меня?Можно ли сделать сценарий?

У меня нет знаний о сценариях, чтобы это сработало, я думаю, это может быть быстрый способ ... кто-нибудь хочет мне помочь?

Спасибо!

Ответы [ 2 ]

1 голос
/ 17 декабря 2011

Я бы настроил скрипт, который открывает только один HTML-файл, анализирует его с помощью надежного анализатора HTML (BeautifulSoup приходит на ум в качестве отличного примера), а затем обходит его одним из двух способов: в модели SAX, написание функций, представляющих цели для ваших правил перезаписи или в модели DOM, написание ваших правил в виде запросов XPath и выполнение действий с соответствующими узлами DOM.

Затем просто запустите скрипт для всех ваших HTML-файлов.

0 голосов
/ 17 декабря 2011
  1. Сделайте резервную копию!
  2. выберите язык сценариев
  3. узнайте, как создать рекурсивный список файлов
  4. научитесь читать содержимое файлов исохранить файлы
  5. открыть все файлы и применить функцию к содержимому каждого файла
  6. функция должна быть списком нескольких шагов, которые вы только что описали, и должна иметь новые данные в качестве возвращаемого значения
  7. сохранить данные обратно в файл

Обычно поиск и замена просты в большинстве языков.если вам это нужно там, где у вас есть условный синтаксический анализ, вам может понадобиться синтаксический анализатор xml / html или, возможно, потребуется изучить регулярные выражения.Всегда лучше сначала убедиться, что он работает для 1 файла;).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...