Как я могу / должен разбить HTML-документ на части, используя Python?(Технико-логически) - PullRequest
1 голос
/ 04 января 2011

У меня есть HTML-документ, который я пытаюсь разбить на отдельные меньшие куски.Скажем, возьмите каждый заголовок

и превратите его в отдельный файл, используя только HTML, закодированный в этом чанке (вместе с html, head, body, тегами). Я использую Красивый суп Python, к которому я новичок, но, кажется, его легко использовать для таких простых задач, как этот (Есть ли лучшие предложения, такие как lxml или Mini-dom?).Итак: 1) Как мне перейти, «разобрать все и превратить каждый в отдельный документ»?Все что угодно, от указателей в правильном направлении до фрагментов кода и онлайновой документации (найдено совсем немного для Soup), будет оценено. 2) Логически, нахождение тега будет недостаточно - мне нужно физически «вырезать его».out 'и поместите его в отдельный файл (и удалите его из оригинала).Возможно, синтаксический анализ текстовых строк вместо узлов был бы более легким (хотя и очень уродливым, синтаксический анализ необработанного текста из сформированной структуры ...?) 3) Аналогичным образом - предположим, я хочуудалить определенный атрибут из всех тегов типа (например, удалить атрибут выравнивания всех изображений).Это кажется легким, но я потерпел неудачу - любая помощь будет оценена!Спасибо за любую помощь!

1 Ответ

2 голосов
/ 04 января 2011

Да, вы используете BeautifulSoup или lxml.Оба имеют методы для поиска узлов, которые вы хотите извлечь.Затем вы также можете воссоздать HTML из объектов узла и, следовательно, сохранить этот HTML в новых файлах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...