Python: разбирать WordPress HTML - PullRequest
1 голос
/ 08 апреля 2011

Я пытаюсь создать блог-картографический сайт, который бы определял текущие тенденции в данном наборе блогов. Для удобства я собираюсь сосредоточиться на данном списке блогов Wordpress.

Есть ли пакет Python для разбора Wordpress HTML?

Я ищу:

  • Идентификация (Является ли данный HTML блогом Wordpress)
  • Свойства блога (имя, сообщения, ссылка на RSS, блогролл ...)
  • Свойства сообщения (заголовок, текст, теги ...)

Если такого пакета нет, я могу реализовать его как проект с открытым исходным кодом, но существующий сэкономит мне много времени.

1 Ответ

2 голосов
/ 08 апреля 2011

Насколько мне известно, не существует каких-либо библиотек синтаксического анализа, специально разбирающих WordPress HTML, но есть библиотеки общего анализа HTML, такие как html5lib , BeautifulSoup .

Я рекомендую вам html5lib + lxml.html.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...