Question

Как лучше всего создавать скрипты для браузера?

Мне нужно разобрать некоторые html-страницы в разных доменах

Я нахожусь на Windows и больше всего использую Firefox.

Adam Batkin · Answer 1 · 21 июля 2009

Похоже, вы хотите получить веб-страницы и проанализировать их для извлечения значимых данных? Я бы предложил что-то вроде TagSoup (для Java), которое запускает красивые события SAX, которые вы можете использовать напрямую, или с использованием XML-модуля по вашему выбору (raw DOM, JDOM, dom4j, XOM и т. Д. ... ). На странице TagSoup также приведен список ссылок на другие языки, такие как Beautiful Soup для Python, Rubyful Soup для Ruby и другие.

Оттуда я бы предложил использовать что-то вроде XPath для извлечения нужных вам бит данных. Другим вариантом будет XSLT для преобразования HTML в какой-то унифицированный формат, которым вы можете более легко манипулировать.

user1676747 · Answer 2 · 17 сентября 2012

Я бы порекомендовал Synthetics Web. Вот рабочий пример на jsFiddle.

jsFiddle http://jsfiddle.net/dwayne05/YkLVw/

Synthetics Web http://www.syntheticsweb.com/

balpha · Answer 3 · 21 июля 2009

Если это просто получение страниц, чтобы делать с ними что угодно, то встроенный модуль urllib в python сделает это за вас.

Как разобрать HTML в сценарии на стороне клиента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как разобрать HTML в сценарии на стороне клиента?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы