Как разобрать HTML в сценарии на стороне клиента? - PullRequest
0 голосов
/ 21 июля 2009

Как лучше всего создавать скрипты для браузера?

Мне нужно разобрать некоторые html-страницы в разных доменах

Я нахожусь на Windows и больше всего использую Firefox.

Ответы [ 3 ]

0 голосов
/ 21 июля 2009

Похоже, вы хотите получить веб-страницы и проанализировать их для извлечения значимых данных? Я бы предложил что-то вроде TagSoup (для Java), которое запускает красивые события SAX, которые вы можете использовать напрямую, или с использованием XML-модуля по вашему выбору (raw DOM, JDOM, dom4j, XOM и т. Д. ... ). На странице TagSoup также приведен список ссылок на другие языки, такие как Beautiful Soup для Python, Rubyful Soup для Ruby и другие.

Оттуда я бы предложил использовать что-то вроде XPath для извлечения нужных вам бит данных. Другим вариантом будет XSLT для преобразования HTML в какой-то унифицированный формат, которым вы можете более легко манипулировать.

0 голосов
/ 17 сентября 2012

Я бы порекомендовал Synthetics Web. Вот рабочий пример на jsFiddle.

jsFiddle http://jsfiddle.net/dwayne05/YkLVw/

Synthetics Web http://www.syntheticsweb.com/

0 голосов
/ 21 июля 2009

Если это просто получение страниц, чтобы делать с ними что угодно, то встроенный модуль urllib в python сделает это за вас.

...