В настоящее время я работаю над проектом, где я скачал несколько связанных html-файлов и собираю из них данные. Одна вещь, которую я заметил, заключается в том, что, хотя общий формат html-файлов одинаков, иногда в разных файлах используются разные теги для хранения сходной информации.
Например, в одном файле это может быть:
<html>
<head>
<p> Title: The GodFather </p>
<p> Author: Mario Puzo </p>
</head>
<html>
А в другом примере это может быть:
<code><html>
<head>
<p> Heading </p>
<pre> Ebook from xyz site: Please donate to our foundation at www.abc.com
Title: The GodFather
Author: Mario Puzo
Я могу с уверенностью сказать, что " Title: " и " Author: " являются общими для всех html-файлов. Я хочу извлечь текст, следующий за " Заголовок: " и " Автор: ".
Я полагаю, я использую красивый суп для извлечения каждого файла HTML. Но чтобы извлечь Заголовок и Автор , было бы лучше использовать регулярные выражения?