Я нашел простые простые выражения очень интуитивно понятными и простыми при работе с хорошими веб-сайтами, а IMDB - хороший веб-сайт.
Например, рейтинг фильма на странице HTML фильма IMDB находится в <DIV>
с class="star-box-giga-star"
. Это ОЧЕНЬ легко извлечь с помощью регулярного выражения. Следующее регулярное выражение извлечет рейтинг фильма из необработанного HTML-кода в группу захвата 1:
star-box-giga-star[^>]*>([^<]*)<
Это не красиво, но это делает работу. Регулярное выражение ищет идентификатор класса «star-box-giga-star», затем ищет >
, который завершает DIV
, а затем захватывает все до следующего <
. Чтобы создать новое регулярное выражение, подобное этому, вы должны использовать веб-браузер, который позволяет проверять элементы (например, Crome или Opera). С помощью Chrome вы можете просто просмотреть веб-страницу, щелкнуть правой кнопкой мыши по элементу, который вы хотите захватить, и набрать Inspect element
, а затем поискать легко различимые элементы, которые можно использовать для создания хорошего регулярного выражения. В этом случае класс "star-box-giga-star"
, очевидно, легко идентифицируем! У вас обычно не будет проблем с поиском таких идентифицируемых элементов на хороших веб-сайтах, потому что хорошие веб-сайты используют CSS, а для CSS требуется ID
или class
, чтобы иметь возможность правильно стилизовать элементы.