Разбор HTML / Javascript в базе данных MySQL - PullRequest
0 голосов
/ 19 октября 2010

Я ищу предложения о том, как лучше всего разобрать следующий календарь ... http://www.ucd.ie/events/calendar.Я не могу обнаружить ни одного хорошо известного фреймворка, и не могу найти его в формате RSS / XML / JSON.

Единственный возможный способ анализа следующего, что я вижу, - это анализ необработанного HTML, который далек от идеала, тем более что многие теги являются повторяющимися ... типичное событие выглядит так ...1006 *

Как видите, анализ многих из них со страницы HTML не будет увлекательным.В основном мне интересно, есть ли у кого-нибудь какие-либо предложения относительно того, как я поступил бы по этому поводу?или, возможно, умнее делать вещи?Я бы очень признателен за любую помощь, потому что я застрял не могу найти никаких альтернатив.

Спасибо.

Ответы [ 2 ]

1 голос
/ 19 октября 2010

Если сайт не предоставляет другого сервиса, чем этот HTML, вы застряли с его разбором, но запросы XPATH могут сделать вашу жизнь намного приятнее, чем простое сопоставление строк.

0 голосов
/ 19 октября 2010

Вы можете попробовать это с xpath, чтобы получить ссылку, которую вы сделаете

//td[@class='odd']/a/@href

но он ломается каждый раз, когда они меняют выход hmtl

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...