Мне нужно разобрать несколько случайных страниц и добавить их в БД. Я думаю об использовании регулярных выражений, но мне было интересно, есть ли какие-либо «специальные» методы (кроме поиска контента между известным текстом / тегами). Контент больше (не всегда) похож на:
Some Title
Text related to Title
Полагаю, мне не нужно извлекать полный текст, но есть некоторый способ узнать, где находится заголовок / абзац, и извлечь из него содержимое. Сам контент может содержать изображения / ссылки, которые я хотел бы сохранить.
Спасибо!