Разбор случайных веб-страниц - PullRequest
0 голосов
/ 21 сентября 2010

Мне нужно разобрать несколько случайных страниц и добавить их в БД. Я думаю об использовании регулярных выражений, но мне было интересно, есть ли какие-либо «специальные» методы (кроме поиска контента между известным текстом / тегами). Контент больше (не всегда) похож на:

Some Title
Text related to Title

Полагаю, мне не нужно извлекать полный текст, но есть некоторый способ узнать, где находится заголовок / абзац, и извлечь из него содержимое. Сам контент может содержать изображения / ссылки, которые я хотел бы сохранить.

Спасибо!

Ответы [ 3 ]

1 голос
/ 21 сентября 2010
0 голосов
/ 21 сентября 2010

Вам необходимо использовать правильный анализатор HTML и извлечь интересующие вас элементы через API анализатора (или через DOM).

Поскольку я не знаю, на каком языке вы программируетево-первых, довольно сложно рекомендовать парсер, но некоторые хорошо известные из них: Иерихон для Java и Beautiful Soup для Python.

0 голосов
/ 21 сентября 2010
  1. Использовать Python.http://www.python.org/

  2. Используйте Beautiful Soup.http://www.crummy.com/software/BeautifulSoup/

...