Как мне найти ссылку на этом веб-сайте (в Linux)? - PullRequest
1 голос
/ 26 августа 2011

Я пытаюсь написать плагин xbmc для mako.co.il (я знаю, что есть xbmako, но я не могу установить его на linux). Когда я пытаюсь пересмотреть сайт эпизодов, я не получаю никакого результата. Я попробовал эту веб-страницу, и я мог найти ссылку, используя a href=".*?">\n\t*<img

Вот тестовый сайт: http://www.mako.co.il/mako-vod-keshet/aharoni_cooks

А вот и учебник: http://wiki.xbmc.org/index.php?title=HOW-TO_write_plugins_for_XBMC

Я думаю, что это как-то связано с разрывом строки, решение, о котором я подумал, - это найти что-нибудь из того, что имеет a href=".*?">, за которым следует что-нибудь, а затем \t<img

Edit:
Хорошо, поэтому я пытаюсь сделать этот стиль DOM XML разбора. Теперь я застрял, потому что в строке 101 у меня есть (javascript?) Часть с циклом for, который анализатор считает тегом ...

Ответы [ 2 ]

0 голосов
/ 05 декабря 2012

Использовать анализатор DOM

Не следует анализировать HTML-файл вручную.Вместо этого попробуйте использовать анализатор DOM.Я предлагаю minidom или ElementTree для общего кода Python.

XBMC

Поскольку вы упоминаете XBMC, я предлагаю вамиспользуйте плагин Parsedom , который предназначен для этой цели.

На странице плагина показано, как составить список всех тегов a или выбрать определенные.

0 голосов
/ 26 августа 2011

Сайт использует CR-LF для разрывов строк, но ваше регулярное выражение предполагает, что они LF.Вы можете справиться с этим, проверив оба стиля:

a href=".*?">\r?\n\t*<img
...