Мне кажется, что здесь вам нужно немного регулярных выражений.Я недавно сделал что-то подобное в PERL, что было не очень сложно, а также было хорошо задокументировано в Интернете со многими полезными темами и учебными пособиями.
Осматривая страницу, похоже, что каждому элементу списка назначен класс с именем «glowBox».Я бы попытался получить полный текст / источник страницы, а затем отфильтровать, чтобы у вас были только разделы, начинающиеся с этого класса.В качестве альтернативы, вы можете использовать предпросмотр или просмотр за спиной, чтобы проверить, что перед номером стоит или следует «. После того, как вы его сузили, вам понадобится группа захвата, чтобы набрать номер как то, что вы сможете использовать позже.PERL, захваченные строки автоматически присваиваются переменным $ 1, $ 2, $ 3 ... и т. Д. Если вы просто просматриваете каждую строку неупорядоченного списка, выполняющего регулярное выражение, вам нужно только $ 1, чтобы захватить число.
Ваша группа захвата может выглядеть следующим образом: (\ d +)
Скобки обозначают группу захвата, \ d она будет соответствовать только цифрам, а знак + означает, что для захвата чего-либо\ d должно совпадать хотя бы один раз. Не уверен, каковы ваши требования, но если вам нужно и имя, и номер, PERL быстро и просто соскребет страницу с необходимыми данными и превратит ее в хеш с ключом / значениемпары.
Определенно проверьте http://www.regexr.com, сортировку регулярного выражения, эквивалентного CSS-саду дзен. Вы можете вставитьВключите в него исходный код и играйте с регулярными выражениями, пока он не найдет то, что вы хотите, и только то, что вы хотите.Для получения дополнительной информации и объяснения странного синтаксиса регулярных выражений, начните здесь и, очевидно, используйте Google.
Редактировать: кажется слишком поздно.