Question

Мне нужно разобрать несколько случайных страниц и добавить их в БД. Я думаю об использовании регулярных выражений, но мне было интересно, есть ли какие-либо «специальные» методы (кроме поиска контента между известным текстом / тегами). Контент больше (не всегда) похож на:

Some Title
Text related to Title

Полагаю, мне не нужно извлекать полный текст, но есть некоторый способ узнать, где находится заголовок / абзац, и извлечь из него содержимое. Сам контент может содержать изображения / ссылки, которые я хотел бы сохранить.

Спасибо!

Daniel Cassidy · Answer 1 · 21 сентября 2010

Пожалуйста, посмотрите этот ответ: RegEx соответствует открытым тегам, кроме автономных тегов XHTML

Daniel Cassidy · Answer 2 · 21 сентября 2010

Вам необходимо использовать правильный анализатор HTML и извлечь интересующие вас элементы через API анализатора (или через DOM).

Поскольку я не знаю, на каком языке вы программируетево-первых, довольно сложно рекомендовать парсер, но некоторые хорошо известные из них: Иерихон для Java и Beautiful Soup для Python.

S.Lott · Answer 3 · 21 сентября 2010

Использовать Python.http://www.python.org/
Используйте Beautiful Soup.http://www.crummy.com/software/BeautifulSoup/

Разбор случайных веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор случайных веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы